HDFS、MapReduce、Yarn学习

98°冷暖 阅读:56 2023-04-26 09:51:24 评论:0

HDFS(Hadoop Distributed File System)是Hadoop的分布式文件系统,它是Hadoop的核心组件之一。HDFS的设计目标是存储大规模数据,并提供高吞吐量的数据访问。HDFS将文件分成多个块(block),并将这些块存储在不同的节点上,以实现数据的分布式存储和处理。HDFS还提供了数据冗余机制,以保证数据的可靠性和容错性。

MapReduce是Hadoop的分布式计算框架,它是Hadoop的另一个核心组件。MapReduce的设计目标是处理大规模数据,并提供高效的计算能力。MapReduce将计算任务分成两个阶段:Map阶段和Reduce阶段。Map阶段将输入数据分成多个小块,并在不同的节点上进行处理;Reduce阶段将Map阶段的结果进行合并和计算。MapReduce还提供了数据分片、任务调度、故障恢复等功能,以保证计算的可靠性和容错性。

Yarn(Yet Another Resource Negotiator)是Hadoop的资源管理器,它是Hadoop的第二代资源管理框架。Yarn的设计目标是提供更加灵活和高效的资源管理能力。Yarn将资源管理分成两个层次:资源管理器(ResourceManager)和节点管理器(NodeManager)。ResourceManager负责整个集群的资源分配和调度,NodeManager负责单个节点上的资源管理和任务执行。Yarn还提供了应用程序管理、容器管理、安全性管理等功能,以支持各种类型的应用程序。


标签:MapReduce
声明

1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

关注我们

一个IT知识分享的公众号