千锋教育-做有情怀、有良心、有品质的职业教育机构

手机站

千锋教育

千锋学习站 | 随时随地免费学

千锋教育

扫一扫进入千锋手机站

领取全套视频

千锋教育

关注千锋学习站小程序
随时随地免费学习课程

行业头条

哈尔滨选择鸿蒙培训机构要注意些什么？选择千锋的理由？ 查看详情>>

哈密选择鸿蒙培训机构要注意些什么？选择千锋的理由？ 查看详情>>

呼和浩特选择鸿蒙培训机构要注意些什么？选择千锋的理由？ 查看详情>>

呼伦贝尔选择鸿蒙培训机构要注意些什么？选择千锋的理由？ 查看详情>>

吴忠选择鸿蒙培训机构要注意些什么？选择千锋的理由？ 查看详情>>

吕梁选择鸿蒙培训机构要注意些什么？选择千锋的理由？ 查看详情>>

吉安选择鸿蒙培训机构要注意些什么？选择千锋的理由？ 查看详情>>

合肥选择鸿蒙培训机构要注意些什么？选择千锋的理由？ 查看详情>>

台州选择鸿蒙培训机构要注意些什么？选择千锋的理由？ 查看详情>>

厦门选择鸿蒙培训机构要注意些什么？选择千锋的理由？ 查看详情>>

400-811-9990 全国咨询热线

首页精品课程

Java

鸿蒙开发

HTML5

物联网

云计算

Python

软件测试

网络安全

大数据

Unity

UI/UE设计

全媒体营销

影视剪辑

游戏原画

区块链

产品经理

商业插画

PMP认证

红帽RHCE

软考认证

华为认证

出国留学

安全认证

更多课程

免费教程
HTML5视频教程 Java视频教程 Python视频教程 UI视频教程云计算视频教程软件测试视频教程大数据视频教程物联网视频教程 Unity视频教程网络安全视频教程全媒体视频教程影视剪辑视频教程
教研实力
教研院项目库师资团队项目大赛
校企服务
企业内训高校合作学科共建
就业服务
就业服务双选会上门招聘人才定制促就业行动
认证考试
PMP培训软考培训红帽RHCE认证学历提升
千锋问问行业资讯技术干货热点话题
零基础学IT IT培训机构 IT面试题 IT就业前景
关于千锋
千锋简介锋益公益大赛组织品牌活动
联系我们

当前位置：首页 > 应聘面试 > 大数据面试题 > 大数据面试题：hive数据导入

大数据面试题：hive数据导入

来源：千锋教育

发布人：syq

时间： 2022-06-21 17:04:00 1655802240

　　1.hive数据导入

　　load data inpath '/hadoop/guozy/data/user.txt' into table external_table;

　　此处是移动(非复制)，移动数据非常快，不会对数据是否符合定义的Schema做校验，这个工作通常在读取的时候进行(即Schema on Read)

　　2.内部表与外部表的不同

　　1）创建外部表需要添加 external 字段。而内部表不需要。

　　2）删除外部表时，HDFS中的数据文件不会一起被删除。而删除内部表时，表数据及HDFS中的数据文件都会被删除。

　　3）内部表与外部表如果不指定location，默认使用hive.metastore.warehouse.dir指定的路径

　　3. Sort By、Order By、Cluster By，Distribute By，group by

　　order by：会对输入做全局排序，因此\只有一个reducer**(多个reducer无法保证全局有序)。只有一个reducer，会导致当输入规模较大时，需要较长的计算时间。

　　distribute by：按照指定的字段对数据进行划分输出到不同的reduce中(单纯的分散数据)。

　　sort by：局部排序，sort by只是确保每个reduce上面输出的数据有序，当只有一个reduce时，也变成全局排序

333

　　cluster by：当distribute by 和 sort by 所指定的字段相同时，即可以使用cluster by

　　group By Key算子的功能固定，只能输出相同key值的序列，reduceByKey适用于分组排序过程中有数据聚合操作(sum)的情形，在其他场景下可能不适用。

4444

　　受限于reduce数量，设置reduce参数mapred.reduce.tasks 输出文件个数与reduce数相同，文件大小与reduce处理的数据量有关，网络负载过重数据倾斜，优化参数hive.groupby.skewindata为true，会启动一个优化程序，避免数据倾斜。更多关于大数据培训的问题，欢迎咨询千锋教育在线名师，如果想要了解我们的师资、课程、项目实操的话可以点击咨询课程顾问，获取试听资格来试听我们的课程，在线零距离接触千锋教育大咖名师，让你轻松从入门到精通。

tags:

声明：本站稿件版权均属千锋教育所有，未经许可不得擅自转载。

10年以上业内强师集结，手把手带你蜕变精英

请您保持通讯畅通，专属学习老师24小时内将与您1V1沟通

免费领取

今日已有369人领取成功

刘同学 138****2860 刚刚成功领取

王同学 131****2015 刚刚成功领取

张同学 133****4652 刚刚成功领取

李同学 135****8607 刚刚成功领取

杨同学 132****5667 刚刚成功领取

岳同学 134****6652 刚刚成功领取

梁同学 157****2950 刚刚成功领取

刘同学 189****1015 刚刚成功领取

张同学 155****4678 刚刚成功领取

邹同学 139****2907 刚刚成功领取

董同学 138****2867 刚刚成功领取

周同学 136****3602 刚刚成功领取

上一篇

大数据面试题：分区和分桶

下一篇

大数据面试题：SQL

免费打包获取

相关推荐HOT

内部表和外部表（重点）

hive外部表是使用external关键字并指定一个hdfs目录创建的表。hive内部表在创建时会在对应hive目录下创建相应的文件夹，外部表则以指定文件夹为...详情>>

2022-09-02 17:21:00

Flink checkpoint和savepoint区别

Checkpoint是为runtime准备的，Savepoint 是为用户准备的。Checkpoint 机制的目标在于保证Flink作业意外崩溃重启不影响exactly once 准确性，通...详情>>

2022-09-02 16:59:22

State：指一个具体的Task/Operator的状态。State可以被记录，在失败的情况下数据还可以恢复，Flink中有两种基本类型的State： Keyed State， Op...详情>>

2022-09-02 16:59:19

Flink反压机制？

Flink 内部是基于producer-consumer模型来进行消息传递的，Flink的反压设计也是基于这个模型。Flink 使用了高效有界的分布式阻塞队列，就像 Jav...详情>>

2022-09-02 16:59:16

大数据面数据：Flink Allowed Lateness & Side OutPut？

虽说水位线(Watermark)表明早于它的事件不应该再出现，但是接收到水位线以前的的消息是不可避免的，这就是所谓的迟到事件。实际上迟到事件是乱...详情>>

2022-09-02 16:59:00

热门推荐

大数据kafka常见面试题——如何搭建kafka？

大数据kafka常见面试题——kafka中如何避免重复消费

大数据面试题之多种方法创建dataframe

大数据Hadoop面试题——Hadoop干什么用的？

大数据行业2年工作经验的面试题有哪些？

大数据kafka面试题——kafka和flume的区别是什么？

大数据部署Kafka面试题解析：实时同步Kafka

大数据部署Kafka面试题：Kafka的部署与管理

大数据面试中关于kafka原理的面试题

揭秘大数据面试必考面试题：快速掌握关键知识！

技术干货更多>>

如何实现服务器负载均衡

2023-12-06

linux有哪些优势和劣势

2023-12-06

linux需要驱动吗

2023-12-06

android与linux的区别

2023-12-06

如何搭建基于容器的深度学习环境

2023-12-06

职场就业更多>>

网络安全软件开发的就业前景

2023-12-09

学会python工程师后的就业前景

2023-12-09

学会java工程师后的就业前景

2023-12-09

云计算技术就业前景以及发展方向怎样？

2023-08-07

快速通道

培训机构
了解培训相关
就业前景
查看就业前景
培训门槛
了解学习门槛
应聘面试
常见面试考题
就业服务
毕业推荐就业
师资团队
了解师资团队

千锋教育

千锋学习站 | 随时随地免费学

千锋教育

扫一扫进入千锋手机站