Hive分桶表及抽样查询

it2022-05-05 129

抽样查询对于非常大的数据集，用户不需要全部查询的结果，只需要一个代表性的查询结果时，可以通过对表进行分桶抽样。

Hive分桶表先介绍一下Hive桶。桶是比表或分区更为细粒度的数据范围划分。针对某一列进行桶的组织，对列值哈希，然后除以桶的个数求余，决定将该条记录存放到哪个桶中。好处： 1、获得更高的查询处理效率。 2、使抽样更高效。创建带桶的table：

create table bucketed_user(id int ,name string) clustered by (id) into 4 buckets row format delimited fields terminated by '\t' stored as textfile; 使用CLUSTERED BY子句指定使用哪一个列来划分桶和要划分的桶的个数。对于map端连接的情况，两个表以相同方式划分桶。处理左边表内某个桶的mapper知道右边表内相匹配的行在哪个对应的桶内。因此，mapper只需要获取那个桶 (这只是右边表内存储数据的一小部分)即可进行连接。这一优化方法并不一定要求两个表必须具有相同个数的桶，两个表的桶个数是倍数关系也可以。创建一个排序桶：

create table bucketed_users(id int ,name string) clustered by (id) sorted by (name) into 4 buckets; 查看目录，发现已经有了bucketed_users这个目录

hive> dfs -ls /user/hive/warehouse; Found 4 items drwxrwxr-x - mahao supergroup 0 2016-09-13 22:59 /user/hive/warehouse/bucketed_users drwxrwxr-x - mahao supergroup 0 2016-09-12 01:58 /user/hive/warehouse/employees drwxrwxr-x - mahao supergroup 0 2016-09-08 20:04 /user/hive/warehouse/src drwxrwxr-x - mahao supergroup 0 2016-09-07 22:26 /user/hive/warehouse/test 桶中的数据根据name列进行排序，在对每个桶进行连接时变成了高效的归并排序。 Hive不检测数据文件中的桶是否和表定义中的桶一致（桶数或划分桶的列），如果不匹配，会在查询时出错，所以，建议让Hive来划分桶的操作。向表中插入数据

物理上，一个桶就是表（或分区）目录里的一个文件。桶对应于MapReduce的输出文件分区：一个作业产生的桶（输出文件）和reduce任务个数相同。在向分桶表加载数据时，需要先

set hive.enforce.bucketing=true;（hive2.0好像没有这个参数）这样Hive就知道用表定义中声明的数量来创建桶，然后使用INSERT加载数据即可。先准备一个没有划分桶的表users。

hive> select * from users; OK 1 zhangsan 2 lisi 3 wangwu 向分桶表中插入数据：

INSERT OVERWRITE　TABLE bucketed_users SELECT * FROM users; 查看表结构：

mahao@ubuntu:~$ hadoop fs -ls /user/hive/warehouse/bucketed_users Found 4 items -rwxrwxr-x 1 mahao supergroup 0 2016-09-13 23:36 /user/hive/warehouse/bucketed_users/000000_0 -rwxrwxr-x 1 mahao supergroup 11 2016-09-13 23:36 /user/hive/warehouse/bucketed_users/000001_0 -rwxrwxr-x 1 mahao supergroup 7 2016-09-13 23:36 /user/hive/warehouse/bucketed_users/000002_0 -rwxrwxr-x 1 mahao supergroup 9 2016-09-13 23:36 /user/hive/warehouse/bucketed_users/000003_0 发现有四个文件，即四个桶。查看文件：

mahao@ubuntu:~$ hadoop fs -cat /user/hive/warehouse/bucketed_users/*0_0; mahao@ubuntu:~$ hadoop fs -cat /user/hive/warehouse/bucketed_users/*1_0; 1zhangsan mahao@ubuntu:~$ hadoop fs -cat /user/hive/warehouse/bucketed_users/*2_0; 2lisi mahao@ubuntu:~$ hadoop fs -cat /user/hive/warehouse/bucketed_users/*3_0; 3wangwu 因为不会显示分隔符，所以看着就是挨着的。

抽样查询 hive>SELECT * FROM bucketed_users TABLESAMPLE(bucket 1 out of 2 on id); 2 lisi 注：tablesample是抽样语句，语法：TABLESAMPLE(BUCKET x OUT OF y) y必须是table总bucket数的倍数或者因子。hive根据y的大小，决定抽样的比例。例如，table总共分了64份，当y=32时，抽取(64/32=)2个bucket的数据，当y=128时，抽取(64/128=)1/2个bucket的数据。x表示从哪个bucket开始抽取。例如，table总bucket数为32，tablesample(bucket 3 out of 16)，表示总共抽取（32/16=）2个bucket的数据，分别为第3个bucket和第（3+16=）19个bucket的数据。

原文：https://blog.csdn.net/zhihaoma/article/details/52539986

专利

最新回复(0)