HBase如何处理热点数据问题(数据倾斜) 2022-08-12
在大量客户端请求访问数据或者写入数据的时候,只有少数几个或者一个 RegionServer 做出响应,导致该服务器的负载过高,造成读写效率低下,而...详情>
HBase参数优化方案,看过来 2022-08-12
HBase 的参数很多,一般都是在使用和优化的过程中不断地调整的,这里只列举出比较重要和常用的几个HBase参数优化方案,大家可以参考一下。详情>
HBase的二级索引的设计 2022-08-12
1. 协处理器coprocessor方案。 原理就是自定义协处理器,实现`双写`,就是写主表的时候,同时写索引表[这里这个索引表是根据业务对查询的需求建...详情>
Flink Spark on Yarn 分布式日志收集问题 2022-08-12
对于Flink,Spark在Yarn上提交的LongTime Job(比如一个批处理作业要运行几个小时或者本身就是实时作业),其作业的运行日志我们不能等到作业结...详情>
Spark Streaming Kafka Offset为什么不用Checkpoint管理 2022-08-12
Spark Streaming消费Kafka,对于offset的管理方式一般有如下方式:1. checkpoint 方式管理,通过checkpoint可以将消费的offset持久化存储到hdf...详情>
HBase系列常见面试题汇总---HBase数据读取流程分析以及Region分裂如何定位切分点 2022-08-12
1.HBase 数据读取流程分析,从 zookeeper 获得 meta 表所在 region 位置,再根据 table、namespace、rowkey 去 meta 表中获取读对象所在的 Reg...详情>
HBase系列常见面试题汇总---HBase如何保证读的高效以及数据的强一致性 2022-08-12
1.HBase如何保证读的高效?缓存:* HBase 有两块主要的内存缓存,MemStore 和 BlockCache。 * 一个查询过来 RegionServer 后,首先用 MemStore...详情>
HBase系列常见面试题汇总---怎么实现HBase的加盐之后的Key找Value 2022-08-12
1.怎么实现HBase的加盐之后的Key找Value?两种方式:如果是随机加盐,通过自定义一个HBase协处理器[coprocessors]来实现。加盐时,使用hash截...详情>
HBase系列常见面试题汇总---HBase的MVCC多版本并发机制 2022-08-12
MVCC(Multi Version Consistency Control),简单地说,是一种通过数据的多版本来解决读写一致性问题的解决方案。我们知道 HBase 是会保留多版...详情>
HBase系列常见面试题汇总---HBase建表优化 2022-08-12
BloomFilter* 默认值为 NONE,布隆过滤器的作用是可以过滤掉大部分不存在目标查询值的 HFile(即略去不必要的磁盘扫描),可以有助于降低读取延...详情>