一、简介 1.1 基本概念 1.1.1 MapReduce(MR) MapReduce基于分而治之得思想,用于大规模数据集(大于1TB)得并行计算和离线计算,具有如下特点 高度抽象的编程思想 良好的扩展性 可通过添加节点扩展集群能力 高容错性 通过计算迁移或数据迁移等策略提高集群的可用性与容错性 1.1.2 Yarn Apache Hadoop Yarn(Yet Another Resource Negotiator)是一个通用的资源管理系统,可为上层应用提供统一的资源管理和调度,提高了集群资源利用率,将资源统一管理、数据共享。 1.2 资源调度与分配 hadoopp1.0中,只有HDFS和MapReduce,资源调度通过MRv1进行,存在很多缺陷: master是单点,故障恢复依赖于周期性的checkpoint,不保证可靠性,发生故障时通知用户,由用户决定是否重新计算 没有区分作业调度与资源调度 没有处理资源隔离与安全性 Hadoop2.0引入了yarn框架,以便更好的管理集群的资源调度与分配 二、功能架构 2.1 MapReduce 2.1.1 MapReduce过程 MapRed.... 有更新! 大数据基础--MapReduce和Yarn 大数据
一、下载hadoop Index of /hadoop/common (apache.org) 在这个地址中下载hadoop安装包,选择一个稳定版或者自己需要的版本下载即可 我下载了稳定版的hadoop,链接如下 https://dlcdn.apache.org/hadoop/common/stable/hadoop-3.3.6.tar.gz 二、下载对应版本的jdk Hadoop Java Versions - Hadoop - Apache Software Foundation 注意里面标注了有几个版本的java8,与hadoop可能存在一些兼容问题 这是我下载的版本 https://download.oracle.com/otn/java/jdk/8u391-b13/b291ca3e0c8548b5a51d5a5f50063037/jdk-8u391-linux-x64.tar.gz?AuthParam=1697686185_1fd488f4fad7ef4e80082165a49c9f3e 三、服务器配置 配置ssh免密登录,参考SSH免密登录 - 问尤龙の时光 (wenyou.... 有更新! 大数据基础--Hadoop环境搭建 大数据