大数据面试题:用户画像、推荐系统、Flink实时数仓、准实时数仓中常见问题都有什么? 2022-06-29
我们在选择如何存储用户标签时,遇到了问题(标签查询速度慢,并且构建不够灵活,标签更新和删除比较麻烦),比如之前用HDFS或者ES存储,后来切...详情>
大数据面试题:kafka详解 2022-06-21
1.延迟队列,重试队列,死信队列,延迟队列:用户登录过时,订单30分钟自动取消;重试队列:可以利用延迟队列实现,即该消息处理失败后,多久...详情>
大数据面试题:kafka 2022-06-21
在正常情况下,AR应该是和ISR一样的,但是当某个Follower副本落后太多或者某个Follower副本节点挂掉了,那么它会被移出ISR放入OSR中,kafka的...详情>
大数据面试题:hbase布隆过滤器 2022-06-21
对于hbase而言,当我们选择采用布隆过滤器之后,HBase会在生成StoreFile(HFile)时包含一份布隆过滤器结构的数据,称其为MetaBlock;MetaBlock与...详情>
大数据面试题:hbase基础 2022-06-21
列簇 :HBASE表中的每个列,都归属于某个列族。列族是表的schema的一部分(而列不是),必须在使用表之前定义。列名都以列族作为前缀。例如 cour...详情>
大数据面试题:SQL 2022-06-21
数据倾斜怎么解决?1)key 尽量打乱;提高reduce任务数;2)关联查询时,利用分桶和map-side提高查询效率详情>
大数据面试题:hive数据导入 2022-06-21
load data inpath '/hadoop/guozy/data/user.txt' into table external_table;此处是移动(非复制),移动数据非常快,不会对数据是否符合定义的...详情>
大数据面试题:分区和分桶 2022-06-21
分区指的就是将数据按照表中的某一个字段进行统一归类,并存储在表中的不同的位置,也就是说,一个分区就是一类,这一类的数据对应到hdfs存储...详情>