sqoop使用经验总结及问题汇总

it2026-03-11  7

问题导读1.导入数据到HDFS,需要注意什么?2.在测试sqoop语句的时候,如何限制记录数量?3.sqoop导入时什么情况下会多导入一条数据?一、sqoop 导入数据到HDFS注意事项分割符的方向问题首先sqoop的参数要小心, 从数据库导出数据,写到HDFS的文件中的时候,字段分割符号和行分割符号必须要用

--fields-terminated-by

而不能是

--input-fields-terminated-by

--input前缀的使用于读文件的分割符号,便于解析文件,所以用于从HDFS文件导出到某个数据库的场景。两个方向不一样。参数必须用单引号括起来官方文档的例子是错的:

The octal representation of a UTF-8 character’s code point. This should be of the form \0ooo, where ooo is the octal value. For example, --fields-terminated-by \001 would yield the ^A character.

应该写成

--fields-terminated-by '\001'

创建Hive表

1 CREATE EXTERNAL TABLE my_table( 2 id int, 3 ... 4 ) 5 PARTITIONED BY ( 6 dt string) 7 ROW FORMAT DELIMITED 8 FIELDS TERMINATED BY '\001' 9 LINES TERMINATED BY '\n' 10 STORED AS textfile;

要小心hive的bug,如果用\001, hive会友好的转换成\u0001但是如果直接写\u0001, hive某些版本会变成u0001STORED AS textfile 可以不用。

 

转载于:https://www.cnblogs.com/shujuxiong/p/9958256.html

最新回复(0)