Hive中常用的参数配置

it2026-03-26  10

-- 查看当前环境参数配置set -v;-- 重置配置为默认值reset;-- 调整map数-- input的文件大小,集群设置的文件块大小,hive中通过set dfs.block.size;命令查看到,该参数不能自定义修改set mapred.max.split.size=400000000;set mapred.min.split.size.per.node=400000000;set mapred.min.split.size.per.rack=400000000;set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;-- 前三个参数用于设置input文件块的大小,第四个这个参数表示执行前进行小文件合并-- 调整reduce数-- 方法一(推荐)set hive.exec.reducers.bytes.per.reducer=400000000; (400M)-- 方法二set mapred.reduce.tasks = 15;-- 并行设置set hive.exec.parallel=true;-- 数据倾斜hive.optimize.skewjoin=falsehive.optimize.skewjoin.compiletime=false set hive.auto.convert.join=true; --join优化 --默认关闭set hive.exec.parallel=true;    -- 默认关闭 --默认打开set hive.exec.parallel.thread.number=16 --默认为8set hive.optimize.skewjoin=true;    -- 默认关闭  //如果是join 过程出现倾斜,应该设置为trueset hive.groupby.skewindata=true;   -- 默认关闭  //发生数据倾斜的时候,进行负载均衡set hive.map.aggr=true; --默认开启-- input文件块大小切分参数设置mapreduce.input.fileinputformat.split.maxsize=256000000mapreduce.input.fileinputformat.split.minsize=1mapreduce.input.fileinputformat.split.minsize.per.node=1mapreduce.input.fileinputformat.split.minsize.per.rack=1

转载于:https://www.cnblogs.com/shujuxiong/p/10669128.html

最新回复(0)