HDFS的优缺点,HDFS(Hadoop Distributed File System)是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础,是基于流数据模式访问和处理超大文件的需求而开发的,可以运行于廉价的商用服务器上。
它所具有的高容错性、高可靠性、高可扩展性、高获得性、高吞吐率等特征为海量数据提供了不怕故障的存储,为超大数据集(Large Data Set)的应用处理带来了很多便利。1.HDFS优点
(1)高容错性:数据自动保存多个副本,副本丢失后,自动恢复,保证可靠性的同时也加快了处理速度,A结点负载高,可读取B结点。
(2)适合批处理:移动计算而非数据,数据位置暴露给计算框架。
(3)可构建在廉价机器上:通过多副本提高可靠性,提供容错和恢复机制。
2.HDFS缺点
(1)低延迟数据访问:例如,订单是否适合存储在HDFS中,要求数据毫秒级就要查出来。
(2)小文件存取:不适合大量的小文件存储,如果真有这种需求的话,要对小文件进行压缩。
(3)并发写入、文件随机修改:不适合修改,实际中网盘、云盘内容是不允许修改的,只能删了重新上传,它们都是Hadoop实现的。