Big DataHDFS讲义(4)

文章目录

  • 6、HDFS新增节点与删除节点
    • 1.服役新数据节点准备
    • 2.服役新节点具体步骤
    • 3.退役旧数据节点
    • Datanode多目录配置
    • block块手动拼接成为完整数据

6、HDFS新增节点与删除节点

1.服役新数据节点准备

需求基础:随着公司业务的增长,数据量越来越大,原有的数据节点的容量已经不能满足存储数据的需求,需要在原有集群基础上动态添加新的数据节点
准备新节点

  • 第一步:复制一台新的虚拟机出来
    将我们纯净的虚拟机复制一台出来,作为我们新的节点
  • 第二步:修改mac地址以及IP地址
修改mac地址命令
vim /etc/udev/rules.d/70-persistent-net.rules修改ip地址命令
vim /etc/sysconfig/network-scripts/ifcfg-eth0
  • 第三步:关闭防火墙,关闭selinux
关闭防火墙
service iptables stop关闭selinux
vim /etc/selinux/config
  • 第四步:更改主机名
更改主机名命令
vim /etc/sysconfig/network
  • 第五步:四台机器更改主机名与IP地址映射
四台机器都要添加hosts文件
vi /etc/hosts
127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4 
::1       localhost localhost.localdomain localhost6 localhost6.localdomain6 
#(IP    对应     主机名)
192.168.100.201  node01
192.168.100.202  node02
192.168.100.203  node03
192.168.100.204  node04
  • 第六步:node04服务器关机重启并生成公钥与私钥

node04执行以下命令生成公钥与私钥

node04执行以下命令关机重启
reboot node04执行以下命令生成公钥与私钥
ssh-keygen -t  rsanode04执行以下命令将node04的私钥拷贝到node01服务器
ssh-copy-id  node01

node01执行以下命令,将authorized_keys拷贝给node04

cd /root/.ssh/scp authorized_keys  node04:$PWD
  • 第七步:node04安装jdk
    node04统一两个路径
创建路径
mkdir -p /export/soft/
mkdir -p /export/servers/

然后解压jdk安装包,配置环境变量,或将集群中的java安装目录拷贝一份,并配置环境变量
安装jdk详情

  • 第八步:解压Hadoop安装包
    node01执行以下命令将Hadoop安装包拷贝到node04服务器
    在node04服务器上面解压Hadoop安装包到/export/servers
cd /export/soft/
scp hadoop-2.6.0-cdh5.14.0-自己编译后的版本.tar.gz node04:$PWD
  • 第九步:将node01关于Hadoop的配置文件全部拷贝到node04
    node01执行以下命令,将Hadoop的配置文件全部拷贝到node04服务器上面
cd /export/servers/hadoop-2.6.0-cdh5.14.0/etc/hadoop/
scp ./* node04:$PWD

2.服役新节点具体步骤

  • 第一步:创建dfs.hosts文件
    在node01也就是namenode所在的机器的/export/servers/hadoop-2.6.0-cdh5.14.0/etc/hadoop目录下创建dfs.hosts文件
[root@node01 ~]# cd /export/servers/hadoop-2.6.0-cdh5.14.0/etc/hadoop[root@node01 Hadoop]# touch dfs.hosts[root@node01 Hadoop]# vim dfs.hosts
添加如下主机名称(包含新服役的节点-HDFS可用节点白名单)
node01
node02
node03
node04
  • 第二步:node01编辑hdfs-site.xml添加以下配置
    在namenode的hdfs-site.xml配置文件中增加dfs.hosts属性
    node01执行以下命令
cd /export/servers/Hadoop-2.6.0-cdh5.14.0/etc/Hadoop[root@node01 hadoop]# vim hdfs-site.xml
添加以下信息
<property><name>dfs.hosts</name><value>/export/servers/hadoop-2.6.0-cdh5.14.0/etc/hadoop/dfs.hosts</value>
</property>
  • 第三步:刷新namenode 刷新resourceManager
    node01 主节点执行以下命令刷新namenode和刷新resourceManager
# HDFS
[root@node01 Hadoop]# hdfs dfsadmin -refreshNodes
Refresh nodes successful# YARN
[root@node01 Hadoop]# yarn rmadmin -refreshNodes
19/03/16 11:19:47 INFO client.RMProxy: Connecting to ResourceManager at node01/192.168.52.100:8033
  • 第四步:namenode的slaves文件增加新服务节点主机名称
    node01编辑slaves文件,并添加新增节点的主机,更改完后,slaves文件不需要分发到其他机器上面去
    node01执行以下命令编辑slaves文件
[root@node01 ~]# cd /export/servers/Hadoop-2.6.0-cdh5.14.0/etc/Hadoop[root@node01 Hadoop]# vim slaves
node01
node02
node03
node04      # 添加新增节点
  • 第五步:单独启动新增节点
    node04服务器执行以下命令,启动datanode和nodemanager
[root@node04]# cd /export/servers/hadoop-2.6.0-cdh5.14.0/启动datanode
[root@node04 hadoop-2.6.0-cdh5.14.0]# sbin/hadoop-daemon.sh start datanode启动nodemanager
[root@node04 hadoop-2.6.0-cdh5.14.0]# sbin/yarn-daemon.sh start nodemanager
  • 第六步:浏览器查看
    HDFS界面:http://node01:50070/dfshealth.html#tab-overview
    YARN界面:http://node01:8088/cluster
  • 第七步:使用负载均衡命令,让数据均匀负载所有机器
    node01执行以下命令
[root@node01 ~]# cd /export/servers/hadoop-2.6.0-cdh5.14.0/[root@node01 hadoop-2.6.0-cdh5.14.0]# sbin/start-balancer.sh

添加新增节点完成

3.退役旧数据节点

  • 第一步:创建dfs.hosts.exclude配置文件
    在namenod的cd /export/servers/hadoop-2.6.0-cdh5.14.0/etc/hadoop目录下创建dfs.hosts.exclude文件,并添加需要退役的主机名称
    node01执行以下命令
[root@node01 ~]# cd /export/servers/hadoop-2.6.0-cdh5.14.0/etc/hadoop创建目录
[root@node01 hadoop]# touch dfs.hosts.exclude添加需要退役的主机名称
[root@node01 hadoop]# vim dfs.hosts.exclude
node04
  • 第二步:编辑namenode所在机器的hdfs-site.xml
    编辑namenode所在的机器的hdfs-site.xml配置文件,添加以下配置
    node01执行以下命令
[root@node01 ~]# cd /export/servers/hadoop-2.6.0-cdh5.14.0/etc/hadoop[root@node01 hadoop]# vim hdfs-site.xml
# 添加以下配置
<property><name>dfs.hosts.exclude</name><value>/export/servers/hadoop-2.6.0-cdh5.14.0/etc/hadoop/dfs.hosts.exclude</value>
</property>
  • 第三步:刷新namenode 刷新resourceManager
    (namenode主节点)node01执行以下命令刷新namenode和刷新resourceManager
# HDFS
[root@node01 Hadoop]# hdfs dfsadmin -refreshNodes
Refresh nodes successful
# YARN
[root@node01 Hadoop]# yarn rmadmin -refreshNodes
19/03/16 11:19:47 INFO client.RMProxy: Connecting to ResourceManager at node01/192.168.52.100:8033
  • 第四步:查看web浏览界面
    HDFS界面:http://node01:50070/dfshealth.html#tab-datanode
  • 第五步:节点退役完成,停止该节点进程
    等待退役节点状态为decommissioned(所有块已经复制完成),停止该节点及节点资源管理器。注意:如果副本数是3,服役的节点小于等于3,是不能退役成功的,需要修改副本数后才能退役。

    node01执行以下命令,停止该节点进程
[root@node01 ~]# cd /export/servers/hadoop-2.6.0-cdh5.14.0
关闭DataNode
[root@node01 hadoop-2.6.0-cdh5.14.0]# sbin/hadoop-daemon.sh stop datanode
关闭nodemanager
[root@node01 hadoop-2.6.0-cdh5.14.0]# sbin/yarn-daemon.sh stop nodemanager
  • 第六步:从include文件中删除退役节点
    namenode所在节点也就是node01执行以下命令删除退役节点
[root@node01 ~]# cd /export/servers/hadoop-2.6.0-cdh5.14.0/etc/hadoop
[root@node01 hadoop]# vim dfs.hosts
node01
node02
node03
#node04  删除此退役节点刷新namenode和resourceManager
# HDFS
[root@node01 Hadoop]# hdfs dfsadmin -refreshNodes
Refresh nodes successful
# YARN
[root@node01 Hadoop]# yarn rmadmin -refreshNodes
  • 第七步:从namenode的slave文件中删除退役节点
    namenode所在机器也就是node01执行以下命令从slaves文件中删除退役节点
[root@node01 ~]# cd /export/servers/hadoop-2.6.0-cdh5.14.0/etc/hadoop
[root@node01 Hadoop]# vim slaves
node01
node02
node03
#node04  删除此退役节点
  • 第八步:如果数据负载不均衡,执行以下命令进行均衡负载
    node01执行以下命令进行均衡负载
[root@node01 ~]# cd /export/servers/hadoop-2.6.0-cdh5.14.0/[root@node01 hadoop-2.6.0-cdh5.14.0]# sbin/start-balancer.sh

删除节点完成

Datanode多目录配置

datanode(从节点)也可以配置成多个目录,每个目录存储的数据不一样。即:数据不是副本。具体配置如下:

cd /export/servers/hadoop-2.6.0-cdh5.14.0/etc/hadoop<!--  定义dataNode数据存储的节点位置,实际工作中
一般先确定磁盘的挂载目录,然后多个目录用逗号进行分割  -->
<property><name>dfs.datanode.data.dir</name><value>
file:///export/servers/Hadoop-2.6.0-cdh5.14.0/hadoopDatas/datanodeDatas,
</value>
</property>

例如:

<name>为key   <value>路径为value
<property><name>dfs.datanode.data.dir</name>
<value>
# 每个硬盘独立挂载
/mnt/disk1/hadoop/hdfs/data,
/mnt/disk2/hadoop/hdfs/data,
/mnt/disk3/hadoop/hdfs/data,
/mnt/disk4/hadoop/hdfs/data,
/mnt/disk5/hadoop/hdfs/data
</value>
</property>

总结
DataNode节点配置多个存储数据的目录,每个数据存储目录是一个独立的硬盘。读写数据时多个硬盘同时工作。效率较高

block块手动拼接成为完整数据

HDFS的数据都是以一个个的block块存储的,只要我们能够将文件的所有block块全部找出来,拼接到一起,又会成为一个完整的文件,接下来我们就来通过命令将文件进行拼接

  • 第一步:上传一个大于128M的文件到hdfs上面去
    我们选择一个大于128M的文件上传到hdfs上面去,只有一个大于128M的文件才会有多个block块
    这里我们选择将我们的jdk安装包上传到hdfs上面去

node01执行以下命令上传jdk安装包

[root@node01 ~]# cd /export/soft/hdfs dfs -put jdk-8u141-linux-x64.tar.gz  /
  • 第二步:web浏览器界面查看jdk的两个block块id
    这里我们看到两个block块id分别为
    1073742699和1073742700
    那么我们就可以通过blockid将我们两个block块进行手动拼接了
  • 第三步:根据我们的配置文件找到block块所在的路径
    根据我们hdfs-site.xml的配置,找到datanode所在的路径
<!--  定义dataNode数据存储的节点位置,实际工作中,一般先确定磁盘的挂载目录,然后多个目录用,进行分割  -->
<property>
<name>dfs.datanode.data.dir</name><value>
file:///export/servers/hadoop-2.6.0-cdh5.14.0/hadoopDatas/datanodeDatas
</value>
</property>

进入到以下路径

cd /export/servers/hadoop-2.6.0-cdh5.14.0/hadoopDatas/datanodeDatas/current/BP-557466926-192.168.52.100-1549868683602/current/finalized/subdir0/subdir3
  • 第四步:执行block块的拼接
cat blk_1073742699 >> jdk8u141.tar.gzcat blk_1073742700 >> jdk8u141.tar.gz

移动jdk到/export路径,然后进行解压
mv jdk8u141.tar.gz /export/

cd /export/tar -zxvf jdk8u141.tar.gz

正常解压,没有问题,说明我们的程序按照block块存储没有问题

Big DataHDFS讲义(4)

文章目录

  • 6、HDFS新增节点与删除节点
    • 1.服役新数据节点准备
    • 2.服役新节点具体步骤
    • 3.退役旧数据节点
    • Datanode多目录配置
    • block块手动拼接成为完整数据

6、HDFS新增节点与删除节点

1.服役新数据节点准备

需求基础:随着公司业务的增长,数据量越来越大,原有的数据节点的容量已经不能满足存储数据的需求,需要在原有集群基础上动态添加新的数据节点
准备新节点

  • 第一步:复制一台新的虚拟机出来
    将我们纯净的虚拟机复制一台出来,作为我们新的节点
  • 第二步:修改mac地址以及IP地址
修改mac地址命令
vim /etc/udev/rules.d/70-persistent-net.rules修改ip地址命令
vim /etc/sysconfig/network-scripts/ifcfg-eth0
  • 第三步:关闭防火墙,关闭selinux
关闭防火墙
service iptables stop关闭selinux
vim /etc/selinux/config
  • 第四步:更改主机名
更改主机名命令
vim /etc/sysconfig/network
  • 第五步:四台机器更改主机名与IP地址映射
四台机器都要添加hosts文件
vi /etc/hosts
127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4 
::1       localhost localhost.localdomain localhost6 localhost6.localdomain6 
#(IP    对应     主机名)
192.168.100.201  node01
192.168.100.202  node02
192.168.100.203  node03
192.168.100.204  node04
  • 第六步:node04服务器关机重启并生成公钥与私钥

node04执行以下命令生成公钥与私钥

node04执行以下命令关机重启
reboot node04执行以下命令生成公钥与私钥
ssh-keygen -t  rsanode04执行以下命令将node04的私钥拷贝到node01服务器
ssh-copy-id  node01

node01执行以下命令,将authorized_keys拷贝给node04

cd /root/.ssh/scp authorized_keys  node04:$PWD
  • 第七步:node04安装jdk
    node04统一两个路径
创建路径
mkdir -p /export/soft/
mkdir -p /export/servers/

然后解压jdk安装包,配置环境变量,或将集群中的java安装目录拷贝一份,并配置环境变量
安装jdk详情

  • 第八步:解压Hadoop安装包
    node01执行以下命令将Hadoop安装包拷贝到node04服务器
    在node04服务器上面解压Hadoop安装包到/export/servers
cd /export/soft/
scp hadoop-2.6.0-cdh5.14.0-自己编译后的版本.tar.gz node04:$PWD
  • 第九步:将node01关于Hadoop的配置文件全部拷贝到node04
    node01执行以下命令,将Hadoop的配置文件全部拷贝到node04服务器上面
cd /export/servers/hadoop-2.6.0-cdh5.14.0/etc/hadoop/
scp ./* node04:$PWD

2.服役新节点具体步骤

  • 第一步:创建dfs.hosts文件
    在node01也就是namenode所在的机器的/export/servers/hadoop-2.6.0-cdh5.14.0/etc/hadoop目录下创建dfs.hosts文件
[root@node01 ~]# cd /export/servers/hadoop-2.6.0-cdh5.14.0/etc/hadoop[root@node01 Hadoop]# touch dfs.hosts[root@node01 Hadoop]# vim dfs.hosts
添加如下主机名称(包含新服役的节点-HDFS可用节点白名单)
node01
node02
node03
node04
  • 第二步:node01编辑hdfs-site.xml添加以下配置
    在namenode的hdfs-site.xml配置文件中增加dfs.hosts属性
    node01执行以下命令
cd /export/servers/Hadoop-2.6.0-cdh5.14.0/etc/Hadoop[root@node01 hadoop]# vim hdfs-site.xml
添加以下信息
<property><name>dfs.hosts</name><value>/export/servers/hadoop-2.6.0-cdh5.14.0/etc/hadoop/dfs.hosts</value>
</property>
  • 第三步:刷新namenode 刷新resourceManager
    node01 主节点执行以下命令刷新namenode和刷新resourceManager
# HDFS
[root@node01 Hadoop]# hdfs dfsadmin -refreshNodes
Refresh nodes successful# YARN
[root@node01 Hadoop]# yarn rmadmin -refreshNodes
19/03/16 11:19:47 INFO client.RMProxy: Connecting to ResourceManager at node01/192.168.52.100:8033
  • 第四步:namenode的slaves文件增加新服务节点主机名称
    node01编辑slaves文件,并添加新增节点的主机,更改完后,slaves文件不需要分发到其他机器上面去
    node01执行以下命令编辑slaves文件
[root@node01 ~]# cd /export/servers/Hadoop-2.6.0-cdh5.14.0/etc/Hadoop[root@node01 Hadoop]# vim slaves
node01
node02
node03
node04      # 添加新增节点
  • 第五步:单独启动新增节点
    node04服务器执行以下命令,启动datanode和nodemanager
[root@node04]# cd /export/servers/hadoop-2.6.0-cdh5.14.0/启动datanode
[root@node04 hadoop-2.6.0-cdh5.14.0]# sbin/hadoop-daemon.sh start datanode启动nodemanager
[root@node04 hadoop-2.6.0-cdh5.14.0]# sbin/yarn-daemon.sh start nodemanager
  • 第六步:浏览器查看
    HDFS界面:http://node01:50070/dfshealth.html#tab-overview
    YARN界面:http://node01:8088/cluster
  • 第七步:使用负载均衡命令,让数据均匀负载所有机器
    node01执行以下命令
[root@node01 ~]# cd /export/servers/hadoop-2.6.0-cdh5.14.0/[root@node01 hadoop-2.6.0-cdh5.14.0]# sbin/start-balancer.sh

添加新增节点完成

3.退役旧数据节点

  • 第一步:创建dfs.hosts.exclude配置文件
    在namenod的cd /export/servers/hadoop-2.6.0-cdh5.14.0/etc/hadoop目录下创建dfs.hosts.exclude文件,并添加需要退役的主机名称
    node01执行以下命令
[root@node01 ~]# cd /export/servers/hadoop-2.6.0-cdh5.14.0/etc/hadoop创建目录
[root@node01 hadoop]# touch dfs.hosts.exclude添加需要退役的主机名称
[root@node01 hadoop]# vim dfs.hosts.exclude
node04
  • 第二步:编辑namenode所在机器的hdfs-site.xml
    编辑namenode所在的机器的hdfs-site.xml配置文件,添加以下配置
    node01执行以下命令
[root@node01 ~]# cd /export/servers/hadoop-2.6.0-cdh5.14.0/etc/hadoop[root@node01 hadoop]# vim hdfs-site.xml
# 添加以下配置
<property><name>dfs.hosts.exclude</name><value>/export/servers/hadoop-2.6.0-cdh5.14.0/etc/hadoop/dfs.hosts.exclude</value>
</property>
  • 第三步:刷新namenode 刷新resourceManager
    (namenode主节点)node01执行以下命令刷新namenode和刷新resourceManager
# HDFS
[root@node01 Hadoop]# hdfs dfsadmin -refreshNodes
Refresh nodes successful
# YARN
[root@node01 Hadoop]# yarn rmadmin -refreshNodes
19/03/16 11:19:47 INFO client.RMProxy: Connecting to ResourceManager at node01/192.168.52.100:8033
  • 第四步:查看web浏览界面
    HDFS界面:http://node01:50070/dfshealth.html#tab-datanode
  • 第五步:节点退役完成,停止该节点进程
    等待退役节点状态为decommissioned(所有块已经复制完成),停止该节点及节点资源管理器。注意:如果副本数是3,服役的节点小于等于3,是不能退役成功的,需要修改副本数后才能退役。

    node01执行以下命令,停止该节点进程
[root@node01 ~]# cd /export/servers/hadoop-2.6.0-cdh5.14.0
关闭DataNode
[root@node01 hadoop-2.6.0-cdh5.14.0]# sbin/hadoop-daemon.sh stop datanode
关闭nodemanager
[root@node01 hadoop-2.6.0-cdh5.14.0]# sbin/yarn-daemon.sh stop nodemanager
  • 第六步:从include文件中删除退役节点
    namenode所在节点也就是node01执行以下命令删除退役节点
[root@node01 ~]# cd /export/servers/hadoop-2.6.0-cdh5.14.0/etc/hadoop
[root@node01 hadoop]# vim dfs.hosts
node01
node02
node03
#node04  删除此退役节点刷新namenode和resourceManager
# HDFS
[root@node01 Hadoop]# hdfs dfsadmin -refreshNodes
Refresh nodes successful
# YARN
[root@node01 Hadoop]# yarn rmadmin -refreshNodes
  • 第七步:从namenode的slave文件中删除退役节点
    namenode所在机器也就是node01执行以下命令从slaves文件中删除退役节点
[root@node01 ~]# cd /export/servers/hadoop-2.6.0-cdh5.14.0/etc/hadoop
[root@node01 Hadoop]# vim slaves
node01
node02
node03
#node04  删除此退役节点
  • 第八步:如果数据负载不均衡,执行以下命令进行均衡负载
    node01执行以下命令进行均衡负载
[root@node01 ~]# cd /export/servers/hadoop-2.6.0-cdh5.14.0/[root@node01 hadoop-2.6.0-cdh5.14.0]# sbin/start-balancer.sh

删除节点完成

Datanode多目录配置

datanode(从节点)也可以配置成多个目录,每个目录存储的数据不一样。即:数据不是副本。具体配置如下:

cd /export/servers/hadoop-2.6.0-cdh5.14.0/etc/hadoop<!--  定义dataNode数据存储的节点位置,实际工作中
一般先确定磁盘的挂载目录,然后多个目录用逗号进行分割  -->
<property><name>dfs.datanode.data.dir</name><value>
file:///export/servers/Hadoop-2.6.0-cdh5.14.0/hadoopDatas/datanodeDatas,
</value>
</property>

例如:

<name>为key   <value>路径为value
<property><name>dfs.datanode.data.dir</name>
<value>
# 每个硬盘独立挂载
/mnt/disk1/hadoop/hdfs/data,
/mnt/disk2/hadoop/hdfs/data,
/mnt/disk3/hadoop/hdfs/data,
/mnt/disk4/hadoop/hdfs/data,
/mnt/disk5/hadoop/hdfs/data
</value>
</property>

总结
DataNode节点配置多个存储数据的目录,每个数据存储目录是一个独立的硬盘。读写数据时多个硬盘同时工作。效率较高

block块手动拼接成为完整数据

HDFS的数据都是以一个个的block块存储的,只要我们能够将文件的所有block块全部找出来,拼接到一起,又会成为一个完整的文件,接下来我们就来通过命令将文件进行拼接

  • 第一步:上传一个大于128M的文件到hdfs上面去
    我们选择一个大于128M的文件上传到hdfs上面去,只有一个大于128M的文件才会有多个block块
    这里我们选择将我们的jdk安装包上传到hdfs上面去

node01执行以下命令上传jdk安装包

[root@node01 ~]# cd /export/soft/hdfs dfs -put jdk-8u141-linux-x64.tar.gz  /
  • 第二步:web浏览器界面查看jdk的两个block块id
    这里我们看到两个block块id分别为
    1073742699和1073742700
    那么我们就可以通过blockid将我们两个block块进行手动拼接了
  • 第三步:根据我们的配置文件找到block块所在的路径
    根据我们hdfs-site.xml的配置,找到datanode所在的路径
<!--  定义dataNode数据存储的节点位置,实际工作中,一般先确定磁盘的挂载目录,然后多个目录用,进行分割  -->
<property>
<name>dfs.datanode.data.dir</name><value>
file:///export/servers/hadoop-2.6.0-cdh5.14.0/hadoopDatas/datanodeDatas
</value>
</property>

进入到以下路径

cd /export/servers/hadoop-2.6.0-cdh5.14.0/hadoopDatas/datanodeDatas/current/BP-557466926-192.168.52.100-1549868683602/current/finalized/subdir0/subdir3
  • 第四步:执行block块的拼接
cat blk_1073742699 >> jdk8u141.tar.gzcat blk_1073742700 >> jdk8u141.tar.gz

移动jdk到/export路径,然后进行解压
mv jdk8u141.tar.gz /export/

cd /export/tar -zxvf jdk8u141.tar.gz

正常解压,没有问题,说明我们的程序按照block块存储没有问题