HBase系列常见面试题汇总---怎样合理设置HBase RowKey 2022-08-12
Rowkey 是一个二进制码流,建议越短越好,一般不超过 16 个字节,主要是出于以下的考虑:数据的持久化文件 HFile 中是按照 KeyValue 存储的,...详情>
HBase系列常见面试题汇总---给一个场景HBase的RowKey设计 2022-08-12
你的题目和描述不一致,你的描述是在说ID-Mapping的问题吗,这和HBase行键设计是两个领域的问题。先说第一个问题HBase行键设计。加盐(随机前缀...详情>
HDFS 机架感知详解 2022-08-12
互联网公司的 Hadoop 集群一般都会比较大,几百台服务器会分布在不同的机架上,甚至在不同的机房。出于保证数据安全性和数据传输的高效性的平...详情>
Spark repartition和coalesce的区别 2022-08-12
repartition只是coalesce接口中shuffle为true的实现。不经过 shuffle,也就是coaleasce shuffle为false,是无法增加RDD的分区数的,比如你源RD...详情>
Spark groupByKey 和 reduceBykey 区别 2022-08-12
reduceByKey 可以接收一个 func 函数作为参数,这个函数会作用到每个分区的数据上,即分区内部的数据先进行一轮计算,然后才进行 shuffle 将数...详情>
Spark Streaming 窗口函数 2022-08-11
理解窗口的两个关键概念,窗口长度(window length)和滑动间隔(slide interval)。 窗口函数会把原始 DStream 的若干批次的数据合并成为一个新的...详情>
Spark Structured Streaming 优势 2022-08-11
增量查询模型(Incremental query model):Structured Streaming 将会在新增的流式数据上不断执行增量查询,同时代码的写法和批处理 API (基于 ...详情>
大数据是干什么的?学完大数据有什么用 2022-07-29
大数据是干什么的?大数据是单台计算机无法处理或在规定时间内无法处理的一组数据。大数据是一种信息资产。接下来给大家分享一些大数据介绍及...详情>
纯小白去学大数据好学吗?小白如何学习大数据 2022-07-19
纯小白去学大数据好学吗?对于零基础的学员来说,学习大数据还是有一定难度的。因此在学习前期需要打好基础,尤其是JAVA语言基础。如果有条件...详情>
零基础应该如何进行大数据的学习?这四个方法不能错过 2022-07-18
在大数据行业,这个名词听上去有点空洞,甚至让我们很多想入行的小伙伴都有些迷惑,但其实一提到大数据技术,大家的第一印象就“高薪”、“高...详情>