Hadoop伪分布式集群安装配置-白红宇

Hadoop伪分布式集群安装配置

阅读量：110 次

发布时间：2019-02-26

本文共 3431 字，大约阅读时间需要 11 分钟。

计算机开发环境：腾讯云云服务器 CentOS 7.6 64位 root用户

基础环境准备：

Hadoop由JAVA开发，安装配置Hadoop之前需要安装配置JDK，可参考。

Hadoop监听某些端口，需要将这些端口开放，此处直接关闭防火墙，可参考

配置ssh免密登录，可参考

Hadoop下载

访问下载或者键入wget命令下载

wget http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-3.2.1/hadoop-3.2.1.tar.gz

Hadoop解压

键入解压命令，路径自定义

tar -zxf hadoop-3.2.1.tar.gz -C ../software

查看目录检验解压文件

配置环境变量

此处直接配置在root用户下

打开root用户根目录下的隐藏文件.bashrc

vim /root/.bashrc

在.bashrc中输入以下设定配置环境变量

# Hadoopexport HADOOP_HOME=/root/software/hadoop-3.2.1 #路径与自定义路径一致export PATH=$HADOOP_HOME/bin:$PATH

使得.bashrc文件修改生效

source /root/.bashrc

查看Hadoop版本

hadoop version

出现类似如下信息表示配置成功

Hadoop运行文件配置

共有五个配置文件需要相关信息设定以支持Hadoop运行

配置文件位于/root/software/hadoop-3.2.1/etc/hadoop，Hadoop根目录下的ect/hadoop

配置文件一：hadoop-env.sh

配置 hadoop 运行时依赖的 java 环境

将JDK路径添加至该文件，与先前JDK环境配置保持一致，随后保存退出

# JDKexport JAVA_HOME=/root/software/jdk-14.0.2 #路径与自定义路径一致

配置文件二：core-site.xml

配置 hadoop 运行过程中临时文件存放的路径及 hdfs 通信方式

将以下代码进行相关修改后粘贴至该文件，随后保存退出


     
        
     
      fs.defaultFS
         
     
      hdfs://sunshine:9000
      
       
      
        
     
      hadoop.tmp.dir
         
     
      /root/software/hadoop-3.2.1/tmp

配置文件三：hdfs-site.xml

配置 hdfs 运行时存放的 name 空间元数据和 data 数据块路径

将以下代码进行相关修改后粘贴至该文件，随后保存退出


     
        
     
      dfs.name.dir
         
     
      /root/software/hadoop-3.2.1/tmp/dfs/name
      
       
      
        
     
      dfs.data.dir
         
     
      /root/software/hadoop-3.2.1/tmp/dfs/data
      
       
      
        
     
      dfs.replication
      
         
     
      1

配置文件四：yarn-site.xml

配置 yarn 资源管理相关信息

将以下代码进行相关修改后粘贴至该文件，随后保存退出


     
        
     
      yarn.resourcemanager.hostname
      
         
     
      sunshine
       
      
        
     
      yarn.nodemanager.aux-services
         
     
      mapreduce_shuffle
       
       
        
     
      yarn.nodemanager.vmem-check-enabled
         
     
      false
       
      
        
     
      yarn.nodemanager.vmem-pmem-ratio
         
     
      5

配置文件五：mapred-site.xml

配置 mapreduce 相关所需资源

将以下代码进行相关修改后粘贴至该文件，随后保存退出


     
        
     
      mapreduce.framework.name
         
     
      yarn
       
      
        
     
      yarn.app.mapreduce.am.env
         
     
      HADOOP_MAPRED_HOME=$HADOOP_HOME
       
      
        
     
      mapreduce.map.env
         
     
      HADOOP_MAPRED_HOME=$HADOOP_HOME
       
      
        
     
      mapreduce.reduce.env
         
     
      HADOOP_MAPRED_HOME=$HADOOP_HOME
       
      
        
     
      mapreduce.map.memory.mb
      
         
     
      1024

Hadoop namenode 初始化

键入初始化命令

hadoop namenode -format

出现如下实例表明namenode初始化成功

启动Hadoop

Hadoop主要的五个进程：namenode、datanode、secondarynamenode、resourcemanager、nodemanager，其中namenode、datanode、secondarynamenode由hdfs提供，resourcemanager、nodemanager由yarn提供。

在目录/root/software/hadoop-3.2.1/sbin下，包含了各个进程的启动和关闭文件

start-all.sh和stop-all.sh分别可以启动全部进程和结束全部进程，键入命令启动全部进程

./start-all.sh

随后华丽报错如下

报错说明没问题，如果在root用户下安装配置Hadoop会出现上述问题，需要额外配置操作，非root用户不需要，操作如下，详细可参考。

在目录/root/software/hadoop-3.2.1/sbin下

对于start-dfs.sh和stop-dfs.sh文件，文件顶部粘贴加入以下配置信息

#!/usr/bin/env bashHDFS_DATANODE_USER=rootHADOOP_SECURE_DN_USER=hdfsHDFS_NAMENODE_USER=rootHDFS_SECONDARYNAMENODE_USER=root

对于start-yarn.sh和stop-yarn.sh文件，文件顶部粘贴加入以下配置信息

#!/usr/bin/env bashYARN_RESOURCEMANAGER_USER=rootHADOOP_SECURE_DN_USER=yarnYARN_NODEMANAGER_USER=root

随后重新启动

./start-all.sh

Web端查看

链接如下，ip更改为Hadoop部署机器ip，端口默认9870。

http://119.75.217.110:9870/dfshealth.html#tab-overview

在这里插入图片描述

转载地址：http://oehu.baihongyu.com/

你可能感兴趣的文章

ngrok | 内网穿透，支持 HTTPS、国内访问、静态域名

查看>>

ngrok内网穿透可以实现资源共享吗？快解析更加简洁

查看>>

ngrok内网穿透可以实现资源共享吗？快解析更加简洁

NHibernate异常：No persister for的解决办法

NIFI1.21.0/NIFI1.22.0/NIFI1.24.0/NIFI1.26.0_2024-06-11最新版本安装_采用HTTP方式_搭建集群_实际操作---大数据之Nifi工作笔记0050

查看>>

NIFI1.21.0_java.net.SocketException:_Too many open files 打开的文件太多_实际操作---大数据之Nifi工作笔记0051

查看>>

NIFI1.21.0_Mysql到Mysql增量CDC同步中_日期类型_以及null数据同步处理补充---大数据之Nifi工作笔记0057

查看>>

NIFI1.21.0_Mysql到Mysql增量CDC同步中_补充_插入时如果目标表中已存在该数据则自动改为更新数据_Postgresql_Hbase也适用---大数据之Nifi工作笔记0058

查看>>

NIFI1.21.0_Mysql到Mysql增量CDC同步中_补充_更新时如果目标表中不存在记录就改为插入数据_Postgresql_Hbase也适用---大数据之Nifi工作笔记0059

查看>>

NIFI1.21.0_NIFI和hadoop蹦了_200G集群磁盘又满了_Jps看不到进程了_Unable to write in /tmp. Aborting----大数据之Nifi工作笔记0052

查看>>

NIFI1.21.0_Postgresql和Mysql同时指定库_指定多表_全量同步到Mysql数据库以及Hbase数据库中---大数据之Nifi工作笔记0060

查看>>

NIFI1.21.0通过Postgresql11的CDC逻辑复制槽实现_指定表多表增量同步_增删改数据分发及删除数据实时同步_通过分页解决变更记录过大问题_02----大数据之Nifi工作笔记0054

查看>>

NIFI1.21.0通过Postgresql11的CDC逻辑复制槽实现_指定表多表增量同步_增加修改实时同步_使用JsonPath及自定义Python脚本_03---大数据之Nifi工作笔记0055

查看>>