千锋教育-做有情怀、有良心、有品质的职业教育机构

手机站
千锋教育

千锋学习站 | 随时随地免费学

千锋教育

扫一扫进入千锋手机站

领取全套视频
千锋教育

关注千锋学习站小程序
随时随地免费学习课程

当前位置:首页  >  应聘面试  >  大数据面试题  > 大数据面试题:hive数据导入

大数据面试题:hive数据导入

来源:千锋教育
发布人:syq
时间: 2022-06-21 17:04:00 1655802240

  1.hive数据导入

  load data inpath '/hadoop/guozy/data/user.txt' into table external_table;

  此处是移动(非复制),移动数据非常快,不会对数据是否符合定义的Schema做校验,这个工作通常在读取的时候进行(即Schema on Read)

  2.内部表与外部表的不同

  1)创建外部表需要添加 external 字段。而内部表不需要。

  2)删除外部表时,HDFS中的数据文件不会一起被删除。而删除内部表时,表数据及HDFS中的数据文件都会被删除。

  3)内部表与外部表如果不指定location,默认使用hive.metastore.warehouse.dir指定的路径

  3. Sort By、Order By、Cluster By,Distribute By,group by

  order by:会对输入做全局排序,因此\只有一个reducer**(多个reducer无法保证全局有序)。只有一个reducer,会导致当输入规模较大时,需要较长的计算时间。

  distribute by:按照指定的字段对数据进行划分输出到不同的reduce中(单纯的分散数据)。

  sort by:局部排序,sort by只是确保每个reduce上面输出的数据有序,当只有一个reduce时,也变成全局排序

333

 

  cluster by:当distribute by 和 sort by 所指定的字段相同时,即可以使用cluster by

  group By Key算子的功能固定,只能输出相同key值的序列,reduceByKey适用于分组排序过程中有数据聚合操作(sum)的情形,在其他场景下可能不适用。

4444

 

  受限于reduce数量,设置reduce参数mapred.reduce.tasks 输出文件个数与reduce数相同,文件大小与reduce处理的数据量有关,网络负载过重 数据倾斜,优化参数hive.groupby.skewindata为true,会启动一个优化程序,避免数据倾斜。更多关于大数据培训的问题,欢迎咨询千锋教育在线名师,如果想要了解我们的师资、课程、项目实操的话可以点击咨询课程顾问,获取试听资格来试听我们的课程,在线零距离接触千锋教育大咖名师,让你轻松从入门到精通。

tags:
声明:本站稿件版权均属千锋教育所有,未经许可不得擅自转载。
10年以上业内强师集结,手把手带你蜕变精英
请您保持通讯畅通,专属学习老师24小时内将与您1V1沟通
免费领取
今日已有369人领取成功
刘同学 138****2860 刚刚成功领取
王同学 131****2015 刚刚成功领取
张同学 133****4652 刚刚成功领取
李同学 135****8607 刚刚成功领取
杨同学 132****5667 刚刚成功领取
岳同学 134****6652 刚刚成功领取
梁同学 157****2950 刚刚成功领取
刘同学 189****1015 刚刚成功领取
张同学 155****4678 刚刚成功领取
邹同学 139****2907 刚刚成功领取
董同学 138****2867 刚刚成功领取
周同学 136****3602 刚刚成功领取
相关推荐HOT