问题导读1.导入数据到HDFS,需要注意什么?2.在测试sqoop语句的时候,如何限制记录数量?3.sqoop导入时什么情况下会多导入一条数据?一、sqoop 导入数据到HDFS注意事项分割符的方向问题首先sqoop的参数要小心, 从数据库导出数据,写到HDFS的文件中的时候,字段分割符号和行分割符号必须要用
--fields-terminated-by而不能是
--input-fields-terminated-by--input前缀的使用于读文件的分割符号,便于解析文件,所以用于从HDFS文件导出到某个数据库的场景。两个方向不一样。参数必须用单引号括起来官方文档的例子是错的:
The octal representation of a UTF-8 character’s code point. This should be of the form \0ooo, where ooo is the octal value. For example, --fields-terminated-by \001 would yield the ^A character.应该写成
--fields-terminated-by '\001'创建Hive表
1 CREATE EXTERNAL TABLE my_table( 2 id int, 3 ... 4 ) 5 PARTITIONED BY ( 6 dt string) 7 ROW FORMAT DELIMITED 8 FIELDS TERMINATED BY '\001' 9 LINES TERMINATED BY '\n' 10 STORED AS textfile;要小心hive的bug,如果用\001, hive会友好的转换成\u0001但是如果直接写\u0001, hive某些版本会变成u0001STORED AS textfile 可以不用。
转载于:https://www.cnblogs.com/shujuxiong/p/9958256.html
