spark有哪些组件? 2023-05-24
ApacheSpark是一个快速而通用的分布式计算引擎,用于大规模数据处理和分析。Spark提供了一系列核心组件和相关工具,用于构建分布式数据处理应...详情>
spark和mapreduce的区别有哪些? 2023-03-30
数据处理方式:Spark支持多种数据处理方式,如批处理、流处理和机器学习等,而MapReduce主要用于批处理。详情>
hadoop和spark哪个好 2023-03-30
Hadoop是一个比较成熟和稳定的分布式计算框架,它具有良好的可扩展性、容错性和数据安全性。Hadoop的核心是分布式文件系统HDFS和分布式计算框...详情>
spark是什么意思 2023-03-28
Spark还支持基于内存的迭代计算模型,可以在多个节点之间进行数据共享和通信,从而大大提高了计算速度和吞吐量。由于其灵活性和高性能,Spark...详情>
Flink Spark on Yarn 分布式日志收集问题 2022-08-12
对于Flink,Spark在Yarn上提交的LongTime Job(比如一个批处理作业要运行几个小时或者本身就是实时作业),其作业的运行日志我们不能等到作业结...详情>
Spark repartition和coalesce的区别 2022-08-12
repartition只是coalesce接口中shuffle为true的实现。不经过 shuffle,也就是coaleasce shuffle为false,是无法增加RDD的分区数的,比如你源RD...详情>
Spark groupByKey 和 reduceBykey 区别 2022-08-12
reduceByKey 可以接收一个 func 函数作为参数,这个函数会作用到每个分区的数据上,即分区内部的数据先进行一轮计算,然后才进行 shuffle 将数...详情>
Spark Cache,Presist,CheckPoint的区别 2022-08-11
Persist 的 MEMORY_ONLY 级别的存储等于 Cache,Persist 其他的配置只是存储的方式不同,作用和原理是和 Cache 类似的,他们二者的区别如下:详情>
Spark Streaming 反压机制(Back Pressure) 2022-08-11
Spark Streaming 反压机制是1.5版本推出的特性,用来解决处理速度比摄入速度慢的情况,简单来讲就是做流量控制。当批处理时间(Batch Processin...详情>
Spark Streaming 窗口函数 2022-08-11
理解窗口的两个关键概念,窗口长度(window length)和滑动间隔(slide interval)。 窗口函数会把原始 DStream 的若干批次的数据合并成为一个新的...详情>