Hadoop的核心是分布式存储和计算框架。它由两个主要组件组成:
Hadoop分布式文件系统(Hadoop Distributed File System,HDFS):它是一个分布式文件系统,设计用于存储大量的数据,支持数据的可靠性和容错性,允许在集群中的节点之间进行数据的高效共享。
Hadoop计算框架(Hadoop MapReduce):它是一个分布式计算框架,可以将计算任务分解成多个子任务,并将这些子任务分配给集群中的多个节点进行并行计算,从而加快计算速度。
Hadoop还包含一些其他的组件,例如Hadoop YARN(Yet Another Resource Negotiator),它是一个资源管理器,用于调度和管理集群上的应用程序资源;Hadoop Common,它是一组共享库和实用程序,为Hadoop生态系统中的各个组件提供基础设施。