54.HDFS分布式文件系统

建站服务器

HDFS系统借助于一款hadoop工具进行部署，文件系统的主要优势是主要是提高客户端的读取效率，假如一块1TB的磁盘数据需要读取，读取速度为100MB/S，如果将1块磁盘中的数据分别存储到100块磁盘上，那么当用户读取时，它们并行运行，那么用户读取操作就可以瞬间完成。

一个HDFS群集由一个运行于master上的Namenode和多个运行于slave上的Datanode组成。

Namenode负责管理文件系统的命名空间和客户端对文件系统的访问操作。

Datanode负责管理存储的数据。

文件以块形式进行在datanode中存储，假设一个块20MB，块的副本数为3，设置块的副本数来达到冗余效果，防止单个datanode磁盘故障后数据丢失。将相同的副本块存储到不同的datanode中实现冗余，大文件将被切成小块存储。

DHFS文件系统搭建步骤：

Master和Slave服务器的先决环境：

v 关闭防火墙等基本操作

# iptables -F

# setenforce 0

# ifconfig

v 配置hosts解析

# vim /etc/hosts

修改内容：

192.168.0.133 master

192.168.0.134 slave1

192.168.0.135 slave2

v 修改主机名

# vim /etc/sysconfig/network

修改内容：

NETWORKING=yes

HOSTNAME=master

# hostname master

Master服务器上：

v 创建hadoop运行用户和密码

# useradd hadoop

# passwd hadoop

v 部署JAVA环境

# tar xzvf jdk-7u65-linux-x64.gz

# mv jdk1.7.0_65/ /usr/local/java

v 安装hadoop软件

# tar xzvf hadoop-2.4.0.tar.gz

# mv hadoop-2.4.0 /usr/local/hadoop

# chown -R hadoop.hadoop /usr/local/hadoop

v 设置环境变量

# vim /etc/profile

添加内容：

JAVA_HOME=/usr/local/java

HADOOP_HOME=/usr/local/hadoop

PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

# source /etc/profile

v 修改hadoop配置文件

# vim /usr/local/hadoop/etc/hadoop/hadoop-env.sh Hadoop的环境文件

添加内容：

JAVA_HOME=/usr/local/java

# vim /usr/local/hadoop/etc/hadoop/core-site.xml 核心配置文件

添加内容：

<name>fs.defaultFS</name>

<value>hdfs://master:9000</value> <!–Namenode的IP：端口–>

</property>

<name>hadoop.tmp.dir</name>

<value>file:/usr/local/hadoop/tmp</value> <!–Hadoop临时缓存目录–>

<description>hadoop</description>

</property>

</configuration>

# cp /usr/local/hadoop/etc/hadoop/mapred-site.xml.template /usr/local/hadoop/etc/hadoop/mapred-site.xml

# vim /usr/local/hadoop/etc/hadoop/mapred-site.xml Hadoop的进程配置文件

添加内容：

<name>mapred.job.tracker</name> <!–服务器进程的配置项–>

<value>master:9001</value> <!–指定为Master端口号为9001–>

</property>

<name>mapred.local.dir</name> <!–可以配置多块磁盘，逗号分隔–>

<value>/usr/local/hadoop/var</value> <!–本地计算临时数据存放位置–>

</property>

</configuration>

# vim /usr/local/hadoop/etc/hadoop/hdfs-site.xml Namenode和Datanode配置文件

添加内容：

<name>dfs.namenode.name.dir</name> <!–配置Namenode工作目录–>

<value>file:/usr/local/hadoop/name</value>

</property>

<name>dfs.datanade.data.dir</name> <!–配置Datanode工作目录–>

<value>file:/usr/local/hadoop/data</value> <!–存放块数据文件目录–>

</property>

<name>dfs.replication</name> <!–配置文件块副本数根据slave的数量为单位–>

</property>

<name>dfs.webhdfs.enable</name> <!–启用Web访问的HDFS–>

</property>

</configuration>

注：

Namenode负责管理文件系统的命名空间和客户端对文件系统的访问操作。

Datanode负责管理存储的数据。

# vim /usr/local/hadoop/etc/hadoop/masters

添加内容：

master

# vim /usr/local/hadoop/etc/hadoop/slaves

添加内容：

Slave1

Slave2

v 部署SSH，配置免验证开启Hadoop

# su hadoop

$ ssh-keygen

$ ssh-copy-id -i ~/.ssh/id_rsa.pub hadoop@slave1

$ ssh-copy-id -i ~/.ssh/id_rsa.pub hadoop@slave2

$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

v 通过SSH将JAVA,HADOOP配置文件同步到Slave服务器

# scp -r /usr/local/hadoop slave1:/usr/local/

# scp -r /usr/local/java slave1:/usr/local/

# scp -r /etc/profile slave1:/etc/

# scp -r /usr/local/hadoop slave2:/usr/local/

# scp -r /usr/local/java slave2:/usr/local/

# scp -r /etc/profile slave2:/etc/

Slave服务器上：

#source /etc/profile

#chown -R hadoop.hadoop /usr/local/hadoop

部署完后HDFS群集的操作：

Master服务器上操作：

v 格式化HDFS文件系统

#su hadoop

$hdfs namenode -format

看到下面的日志信息则成功格式化：

16/10/13 10:50:22 INFO common.Storage: Storage directory /usr/local/hadoop/name has been successfully formatted.

v 检查新生成的目录

$ ll /usr/local/hadoop/name/

看到：

drwxr-xr-x. 2 root root 4096 10月 13 10:50 current

v 启动hadoop群集

$ /usr/local/hadoop/sbin/start-all.sh

v 验证HDFS节点各进程是否正常

Master上显示：

[hadoop@master Desktop]$ jps

6114 NameNode

6438 ResourceManager

6579 Jps

6304 SecondaryNameNode

Slaves上显示：[root@localhost 桌面]# jps

5387 Jps

5303 NodeManager

5191 DataNode

v 验证访问

访问https：//192.168.0.133:50070 可以看到视图系统

为DHFS群集添加节点：

2 关闭防火墙等基本操作

2 配置host解析

2 修改主机名

2 部署JAVA环境

2 设置环境变量

2 安装hadoop软件

2 从Master服务器通过SSH同步配置文件到节点服务器

2 新节点启动并平衡节点已经存储的数据

$hadoop-daemon.sh start datanode

$hadoop-daemon.sh start tasktracker

$jps

$hadoop dfsadmin -report 查看群集信息

为DHFS群集删除节点：

$ vim /usr/local/hadoop/etc/hadoop/core-site.xml

添加内容：

<name>dfs.hosts.exclude</name>

<value>/usr/localhadoop/etc/hadoop/exclude</value> <!–建立排除的节点–>

</property>

$vim /usr/local/hadoop/etc/hadoop/excludes

添加内容：

slave4 要删除的节点名

$hdfs dfsadmin -refreshnodes 刷新配置

$jps

$hadoop dfsadmin -report 查看群集信息

Hadoop基本命令的使用

命令

作用

Hadoop fs -help

帮助

Hadoop fs -usage

帮助

Hadoop fs -ls

显示

Hadoop fs -mkdir

创建

Hadoop fs -put

上传

Hadoop fs -report

查看节点状态信息

Hadoop dfsadmin -safemode enter

开启安全模式

Hadoop dfsadmin -safemode leave

开启安全模式

Hadoop fs -copyfromlocal 本地源文件 HDFS目标目录

将本地文件复制到HDFS上

Hadoop fs -copylocal HDFS文件本地

将HDFS中的文件复制到本地

Hadoop fs -chgrp 组名 DHFS文件或目录

修改属组

Hadoop fs -chmode 755 DHFS文件或目录

修改权限

Hadoop fs -chown 属主.属组 DHFS文件或目录

修改所有者

Hadoop fs -du DHFS文件或目录

统计显示目录中文件大小

Hadoop fs -getmerge -nl DHFS文件本地文件

合并文件

54.HDFS分布式文件系统

Ubuntu环境源码编译安装xdebug的方法

RAKsmart香港VPS主机评测

赞助商推荐

最新文章

索尼总裁十时裕树：PS5 Pro 游戏机目标群体是硬核用户，定价没有负面影响

酷比魔方掌玩 mini 2 Ultra 平板电脑公布：8.8 英寸屏配骁龙 7+ Gen 3、搭 8GB RAM 及 256GB 存储空间

pyserial库有什么用(pyserial库接受uwb数据)

域名地址中的后缀cn代表什么(域名后缀cn是指中国域名后缀uk是)

amd显卡设置怎么打开(Amd显卡怎么打开设备管理器?)

宝塔linux和windows面板区别(宝塔和wdcp哪个安全)

亚马逊服务器怎么样(亚马逊云下载量大吗安全吗)

镜像备份是什么意思(windows下备份镜像)

vista激活码能激活win11吗(win10激活码可以随便用吗)

pdfminer是什么库(pdfminer.pdfdocument)

标签

点击排行

54.HDFS分布式文件系统

Ubuntu环境源码编译安装xdebug的方法

RAKsmart香港VPS主机评测

赞助商推荐

最新文章

索尼总裁十时裕树：PS5 Pro 游戏机目标群体是硬核用户，定价没有负面影响

标签

点击排行

关注我们的公众号