hadoop 部署在centos 7 上

it2022-05-05 162

一、准备工作

1. 配置网站参考： http://hadoop.apache.org/docs/r1.0.4/cn/cluster_setup.html

http://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/ClusterSetup.html

2.准备版本：

　　先选定响应的hadoop和hbase版本，下面是2019-7-3日的截图信息：

准备3台centOS 7关闭防火墙： systemctl stop firewalld.service禁用防火墙： systemctl disable firewalld.service查看防火墙状态 firewall-cmd --state重启 reboot

二、实现三台机器ssh免密码登录

首先，你要确保知道你的三台机子的名称和ip比如：我的三台分别是10.25.0.165 hadoop0110.25.0.221 hadoop0210.25.0.232 hadoop03

1.检查机器的名称和IP检查机器名称用root账户登录，然后使用hostname命令查看机器名称[root@localhost etc]# hostnamelocalhost.localdomain[root@localhost etc]#把他修改成我们想要的名称hostname hadoop01修改之后检查一下，如果修改不成功，可以进入配置文件进行名称的修改。vim /etc/hostname ##用vi进行修改类似的，将其他两个机器，

分别改名为hadoop02和hadoop03使用ifconfig来检查电脑的ip[root@hadoop01 etc]# ifconfig 如果你的虚拟机使用的是桥接的，ifconfig之后你还是不确定你的IP，建议使用CRT工具连接试试，能够成功联通的就是正确的IP。2.修改/etc/hosts文件修改三台机器的

/etc/hosts

文件，在里面添加如下内容(添加就行了，不需要删除)修改方法：可以使用vim命令，也可以再写一个hosts文件，拿到linux上覆盖。10.25.0.165 hadoop0110.25.0.221 hadoop0210.25.0.232 hadoop03

Tip：IP地址不需要和我的一样，这里只是做一个映射。配置完成后使用ping命令检查这3个机器是否相互ping得通（互相检查一下）。[root@hadoop01 etc]# ping -c 3 hadoop02PING hadoop02 (10.25.0.221) 56(84) bytes of data.64 bytes from hadoop02 (10.25.0.221): icmp_seq=1 ttl=64 time=0.416 ms64 bytes from hadoop02 (10.25.0.221): icmp_seq=2 ttl=64 time=0.431 ms64 bytes from hadoop02 (10.25.0.221): icmp_seq=3 ttl=64 time=0.458 ms --- hadoop02 ping statistics ---3 packets transmitted, 3 received, 0% packet loss, time 2003msrtt min/avg/max/mdev = 0.416/0.435/0.458/0.017 ms[root@hadoop01 etc]# ping得通，说明机器是互联的，hosts配置正确。4.SSH免密码登陆--参考另外一篇博客三台机器之间可以互多测试几遍

三、安装jdk和hadoop

1.安装jdk见另外一篇教程2.下载hadoophttp://hadoop.apache.org/releases.html选择合适的版本进行下载，我这边使用的是由上面的图中选择对应合适的版本： 2.8.5

https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-2.8.5/

3.上传文件并进行解压在opt目录下新建一个名为hadoop的目录，并将下载得到的hadoop-2.9.1.tar.gz上载到该目录下。进入该目录，并进行解压操作：

[root@hadoop01 ~]# cd /opt/hadoop [root@hadoop01 hadoop]# tar -xvf hadoop-2.8.5.tar.gz

在三台机器上重复这一操作。在/root目录下新建几个目录，复制粘贴执行下面的命令：

mkdir /root/hadoop mkdir /root/hadoop/tmp mkdir /root/hadoop/var mkdir /root/hadoop/dfs mkdir /root/hadoop/dfs/name mkdir /root/hadoop/dfs/data

四：配置Hadoop守护进程的环境 hadoop-env.sh

进入：

/usr/local/hadoop/hadoop-2.8.5/etc/hadoop

vi hadoop-env.sh

将 export JAVA_HOME=${JAVA_HOME}修改为：export JAVA_HOME=/opt/java/jdk1.8.0_171说明：修改为自己的JDK路径

备注：

管理员应该使用etc / hadoop / hadoop-env.sh和etc / hadoop / mapred-env.sh以及etc / hadoop / yarn-env.sh脚本来对Hadoop守护进程的进程环境进行特定于站点的自定义。

至少，您必须指定JAVA_HOME，以便在每个远程节点上正确定义它。

管理员可以使用下表中显示的配置选项配置各个守护程序：

官方文档：

五：配置Hadoop守护进程

主要修改的配置文件都在这里，我们可以看一下。[root@hadoop01 hadoop]# ls /usr/local/hadoop/hadoop-2.8.5/etc/hadoopcapacity-scheduler.xml core-site.xml hadoop-metrics2.properties hdfs-site.xml httpfs-signature.secret kms-env.sh log4j.properties mapred-queues.xml.template slaves yarn-env.cmdconfiguration.xsl hadoop-env.cmd hadoop-metrics.properties httpfs-env.sh httpfs-site.xml kms-log4j.properties mapred-env.cmd mapred-site.xml ssl-client.xml.example yarn-env.shcontainer-executor.cfg hadoop-env.sh hadoop-policy.xml httpfs-log4j.properties kms-acls.xml kms-site.xml mapred-env.sh mapred-site.xml.template ssl-server.xml.example yarn-site.xml

其中：

　　core-site.xml是全局配置,hdfs-site.xml和mapred-site.xml分别是hdfs和mapred的局部配置。

1) 修改core-site.xml在<configuration>节点内加入配置:

<property> <name>hadoop.tmp.dir</name> <value>/root/hadoop/tmp</value> <description>Abase for other temporary directories.</description> </property> <property> <name>fs.default.name</name> //-NameNode URI <value>hdfs://hadoop01:9000</value> </property>

官方文档：

中文：

2)配置Hadoop守护进程的运行参数 hdfs-site.xml

在<configuration>节点内加入配置:

<property> <name>dfs.namenode.name.dir</name>　　　　　　//NameNode持久存储命名空间和事务日志的本地文件系统上的路径。 <value>/root/hadoop/dfs/name</value> </property> <property> <name>dfs.datanode.data.dir</name>　　　//逗号分隔的DataNode本地文件系统上的路径列表，它应该存储其块。如果这是逗号分隔的目录列表，则数据将存储在所有命名目录中，通常位于不同设备上。 <value>/root/hadoop/dfs/data</value> </property> <property> <name>dfs.replication</name> <value>2</value> </property>

其余的配置信息

3）新建并且修改

mapred-site.xml该版本中，有一个名为mapred-site.xml.template的文件，复制该文件，然后改名为mapred-site.xml，命令是：cp /usr/local/hadoop/hadoop-2.8.5/etc/hadoop/mapred-site.xml.template /usr/local/hadoop/hadoop-2.8.5/etc/hadoop/mapred-site.xml修改这个新建的mapred-site.xml文件，在<configuration>节点内加入配置:

<property> <name>mapred.job.tracker</name> <value>hadoop01:49001</value> </property> <property> <name>mapred.local.dir</name> <value>/root/hadoop/var</value> </property> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property>

参考官方文档：

4)修改slaves文件

列出etc / hadoop / slaves文件中的所有从属主机名或IP地址，每行一个。Helper脚本（如下所述）将使用etc / hadoop / slaves文件一次在多个主机上运行命令。它不用于任何基于Java的Hadoop配置。为了使用此功能，必须为用于运行Hadoop的帐户建立ssh信任（通过无密码ssh或其他方式，如Kerberos）。

在conf/slaves文件中列出所有slave的主机名或者IP地址，一行一个。

修改 /usr/local/hadoop/hadoop-2.8.5/etc/hadoop/slaves 文件，将里面的localhost删除，添加如下内容：

hadoop02hadoop03

5）修改 yarn-site.xml 文件修改 /usr/local/hadoop/hadoop-2.8.5/etc/hadoop/yarn-site.xml文件，在<configuration>节点内加入配置(注意了，内存根据机器配置越大越好，我这里只配2个G是因为机器不行):

<property> <name>yarn.resourcemanager.hostname</name> <value>hadoop01</value> </property> <property> <description>The address of the applications manager interface in the RM.</description> <name>yarn.resourcemanager.address</name> <value>${yarn.resourcemanager.hostname}:8032</value> </property> <property> <description>The address of the scheduler interface.</description> <name>yarn.resourcemanager.scheduler.address</name> <value>${yarn.resourcemanager.hostname}:8030</value> </property> <property> <description>The http address of the RM web application.</description> <name>yarn.resourcemanager.webapp.address</name> <value>${yarn.resourcemanager.hostname}:8088</value> </property> <property> <description>The https adddress of the RM web application.</description> <name>yarn.resourcemanager.webapp.https.address</name> <value>${yarn.resourcemanager.hostname}:8090</value> </property> <property> <name>yarn.resourcemanager.resource-tracker.address</name> <value>${yarn.resourcemanager.hostname}:8031</value> </property> <property> <description>The address of the RM admin interface.</description> <name>yarn.resourcemanager.admin.address</name> <value>${yarn.resourcemanager.hostname}:8033</value> </property> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> <property> <name>yarn.scheduler.maximum-allocation-mb</name> <value>2048</value> <discription>每个节点可用内存,单位MB,默认8182MB</discription> </property> <property> <name>yarn.nodemanager.vmem-pmem-ratio</name> <value>2.1</value> </property> <property> <name>yarn.nodemanager.resource.memory-mb</name> <value>2048</value> </property> <property> <name>yarn.nodemanager.vmem-check-enabled</name> <value>false</value> </property>

参考官方的解释：

参考中文翻译：

六、启动hadoop

完成所有必要的配置后，将文件分发到所有计算机上的HADOOP_CONF_DIR目录。这应该是所有计算机上的同一目录。

通常，建议HDFS和YARN作为单独的用户运行。在大多数安装中，HDFS进程以'hdfs'的形式执行。YARN通常使用'yarn'帐户。

将hadoop移动到另外两个机器上：

scp -r /usr/local/hadoop/hadoop-2.8.5 root@hadoop02:/usr/local/hadoop scp -r /usr/local/hadoop/hadoop-2.8.5 root@hadoop03:/usr/local/hadoop

1.在namenode上执行初始化因为hadoop01是namenode，hadoop02和hadoop03都是datanode，所以只需要对hadoop01进行初始化操作，也就是对hdfs进行格式化。[root@hadoop01 hadoop]# cd /usr/local/hadoop/hadoop-2.8.5/bin[root@hadoop01 bin]# ./hadoop namenode -format......不报错的话，就是顺利的执行完初始化了；格式化成功后，可以在看到在/root/hadoop/dfs/name/目录多了一个current目录，而且该目录内有一系列文件：[root@hadoop01 bin]# cd /root/hadoop/dfs/name/[root@hadoop01 name]# lscurrent in_use.lock[root@hadoop01 name]# ls current/edits_0000000000000000001-0000000000000000002 edits_0000000000000000005-0000000000000000006 fsimage_0000000000000000004 fsimage_0000000000000000006 seen_txidedits_0000000000000000003-0000000000000000004 edits_inprogress_0000000000000000007 fsimage_0000000000000000004.md5 fsimage_0000000000000000006.md5 VERSION[root@hadoop01 name]# 2.执行启动命令：[root@hadoop01 name]# cd /usr/local/hadoop/hadoop-2.8.5/sbin[root@hadoop01 sbin]# ./start-all.sh...

启动完成后，输入命令jps来判断是否启动成功五、测试hadoophadoop01是我自己的主机，ip是10.25.0.165所以访问：http://10.25.0.165:50070/http://10.25.0.165:8088/

执行命令 hdfs

解决办法：在 /etc/profile 中加入

export HADOOP_HOME=/usr/local/hadoop/hadoop-2.8.5/binexport PATH=$PATH:$HADOOP_HOME

如下命令查看状态：

hdfs dfsadmin -report

转载于:https://www.cnblogs.com/leolzi/p/10986337.html

相关资源：第一步-hadoop-hadoop-2.7.3在centos7上部署安装（单机版）.zip

专利

最新回复(0)