推荐答案
Spark是一种快速通用的分布式计算系统,用于大规模数据处理。它最初由加州大学伯克利分校的AMPLab开发,作为Hadoop的一个子项目,并于2010年开源。
Spark提供了高级API,包括Java、Scala、Python和R,以及SQL查询、流处理和图形处理。它支持各种数据源,包括Hadoop Distributed File System(HDFS)、Apache Cassandra、Apache HBase等。火花还
Spark的主要优点是其速度和可扩展性。与传统的MapReduce模型相比,Spark在内存中保留数据,从而避免了磁盘I / O的开销。Spark还支持基于内存的迭代计算模型,可以在多个节点之间进行数据共享和通信,从而大大提高了计算速度和吞吐量。
由于其灵活性和高性能,Spark被广泛用于各种大规模数据处理场景,包括机器学习、数据挖掘、图形处理、日志分析等。
其他答案
-
Spark是一种通用的大数据计算框架,和传统的大数据技术MapReduce有本质区别。前者是基于内存并行计算的框架,而mapreduce侧重磁盘计算。Spark是加州大学伯克利分校AMP实验室开发的通用内存并行计算框架,用于构建大型的、低延迟的数据分析应用程序。
-
Spark同样支持离线计算和实时计算两种模式。Spark离线计算速度要比Mapreduce快10-100倍。而实时计算方面,则依赖于SparkStreaming的批处理能力,吞吐量大。不过相比Storm,SparkStreaming并不能做到真正的实时。