hadoop 1. hadoop简介及集群搭建

22 Jan 2021

Hadoop简介

Hadoop 是一个适合大数据的分布式存储和计算平台。 如前所述,狭义上说Hadoop就是一个框架平台,广义上讲Hadoop代表大数据的一个技术生态圈,包括很多其他软件框架

Hadoop生态圈技术栈

  1. Hadoop(HDFS + MapReduce + Yarn)
  2. Hive 数据仓库工具
  3. HBase 海量列式非关系型数据库
  4. Flume 数据采集工具
  5. Sqoop 数据迁移工具
  6. Kafka 高吞吐消息中间件

Hadoop的发行版本

企业中主要用到的三个版本分别是:Apache Hadoop版本(最原始的,所有发行版均基于这个版 本进行改进)、Cloudera版本(Cloudera’s Distribution Including Apache Hadoop,简称“CDH”)、 Hortonworks版本(Hortonworks Data Platform,简称“HDP”)

Hadoop的特点

Hadoop的优点

Hadoop的缺点

Apache Hadoop的重要组成

Hadoop=HDFS(分布式文件系统)+MapReduce(分布式计算框架)+Yarn(资源协调框架)+Common模块

1. Hadoop HDFS

(Hadoop Distribute File System )一个高可靠、高吞吐量的分布式文件系统。
数据切割、制作副本、分散储存

比如:100T数据存储,
“分而治之” 分:拆分–》数据切割,100T数据拆分为10G一个数据块由一个电脑节点存储这个数据块。

注:NN,2NN,DN这些既是角色名称,进程名称,代指电脑节点名称!!

2. Hadoop MapReduce

一个分布式的离线并行计算框架
拆解任务、分散处理、汇整结果

MapReduce计算 = Map阶段 + Reduce阶段

3. Hadoop YARN

作业调度与集群资源管理的框架
Yarn中有如下几个主要角色,同样,既是角色名、也是进程名,也指代所在计算机节点名称。

ResourceManager是老大,NodeManager是小弟,ApplicationMaster是计算任务专员

4. Hadoop Common

支持其他模块的工具模块(Configuration、RPC、序列化机制、日志操作)

完全分布式集群搭建

Hadoop框架是采用Java语言编写,需要java环境(jvm)
JDK版本:必须使用JDK8版本

1. 虚拟机环境准备

2. 集群规划

框架 centos7-1 centos7-2 centos7-3
HDFS NameNode、DataNode DataNode SecondaryNameNode、DataNode
YARN NodeManager NodeManager NodeManager、ResourceManager

3.安装Hadoop

4. 启动集群

注意: 如果集群是第一次启动,需要在Namenode所在节点格式化NameNode,非第一次不用执行格 式化Namenode操作!!

5. 集群测试

6. 配置历史服务器

在Yarn中运行的任务产生的日志数据不能查看,为了查看程序的历史运行情况,需要配置一下历史日志 服务器。