HDFS 巡检
- HDFS 总体状态
-
- HDFS 状态
- HDFS 容量是否过阈值
- HDFS UI 巡检
-
- Summary 巡检
- NameNode Journal Status
- Datanode Volume Failures
- NameNode 巡检
-
- NameNode 高可用是否存活
- NameNode 状态是否正常
- 编辑日志同步平均时间是否过高
- RPC 队列长度是否过高、处理时间是否过高
- JVM 堆栈内存使用情况
- 主机内存使用情况
-
- NameNode 节点主机内存
- NameNode 主机 CPU
- NameNode GC
- NameNode RPC 连接数
- 磁盘延迟
- Datanode 巡检
- 参数巡检 ( 第一次 )
HDFS 为集群提供高可用性弹性存储服务,是集群的存储主体
每天早晚巡检 HDFS 服务 :
- HDFS 服务可用性
- 存储使用率
- DataNode是否有故障盘

文章图片
HDFS 容量是否过阈值 是否超过 75% , 固态硬盘应当空余容量 ( 计算机组成原理 ) , 如果过满 , 固态磁盘损坏过快

文章图片
HDFS UI 巡检 Summary 巡检

文章图片
- HDFS 总文件数:HDFS 存储内有多少文件,警告阈值 : 5000W
- HDFS 总存储容量: HDFS 总存储容量
- 占用存储容量:HDFS 使用了多少存储容量
- HDFS 占用比:警戒阈值: 75%,如 : 超过,应立即告知业务清理数据
- 平均占用比例:HDFS 各个节点的存储使用均衡情况,如 : 最后一个数字 > 5%,说明 : 存储均衡不正常,需要判断是否有故障节点和执行 balance
- 集群内断开节点:集群内与 HDFS 断开连接的节点 ( 故障节点 ) ,可登陆该主机判断故障问题(服务挂掉,系统宕机,硬件故障 )

文章图片
Datanode Volume Failures 坏盘

文章图片
NameNode 巡检 NameNode 高可用是否存活

文章图片
NameNode 状态是否正常

文章图片
编辑日志同步平均时间是否过高

文章图片
RPC 队列长度是否过高、处理时间是否过高

文章图片
JVM 堆栈内存使用情况

文章图片
主机内存使用情况 NameNode 节点主机内存,一般使用 56G 左右,总内存 128G。内存相对充裕

文章图片
NameNode 节点主机内存
NameNode 进程本身的内存,平均使用在 30G,总共分配了 60G。进程内存相对充裕

文章图片
NameNode 主机 CPU
使用率平均在 40%,CPU 资源相对充裕

文章图片
NameNode GC
平均低于 1ms,最大 4.5ms,GC 相对正常

文章图片
NameNode RPC 连接数
平均在 2.5K,最高 5.5K,由于集群较大,并且对 HDFS 访问较多,RPC 会比较高

文章图片
磁盘延迟

文章图片
Datanode 巡检 在 HDFS 界面顶端点击 DataNodes,会出现该集群内所有 DataNode 主机清单

文章图片
包括 DataNode,不包括 NameNode 等其他节点【Hadoop|HDFS 巡检】

文章图片
参数巡检 ( 第一次 )
说明 | 配置项 | 目前配置 | 备注 |
---|---|---|---|
HDFS 块大小 | dfs.block.size | 512M | 常用的值 : 128M ,如 : 集群中有较多大文件,可考虑增大该值 |
复制因子 | dfs.replication | 3 | 存储充足时,建议设置为 3 |
NameNode 数据目录 | /data/dfs/name | 建议配置两个目录 , 两块硬盘,可以提高数据的可用性 | |
NameNode | dfs.namenode.handler.count | 200 | 根据集群规模可以适当调大 |
NameNode 服务处理程序计数 | dfs.namenode.service.handler.count | 200 | |
NameNode Java 堆栈大小 | 60G | ||
dfs.namenode.replication.work.multiplier.per.it eration | 10 | ||
datanode 数据目录 | dfs.data.dir , dfs.datanode.data.dir | /data/hdfsdsj[01-2 2]/data | |
datanode 数据目录权限 | dfs.datanode.data.dir.perm | 755 | |
dfs.datanode.handler.count | 3 | datanode 处理线程数可以适当调大 , 建议 : 10 | |
最大传输线程 | dfs.datanode.max.xcieveRegionServer | 65536 | 设置太大,对 DataNode 的压力较大,建议 : 小点 , 建议 : 8192 |
datanode 平衡带宽 | 20M | 可以适当调高 | |
datanode 的 Java 堆栈大小 | 4G | 建议 : 8G | |
JorunalNode 的 Java 堆栈大小 | 1G | 适当提升堆栈大小 , 建议 : 8G |
推荐阅读
- #|SpringCloud Alibaba 之Seata(总体第三篇)
- 分布式服务下,消息中间件改造
- 大数据笔记(HDFS权限和Java的api使用)
- 0006 - Hadoop&HDFS命令指南大全
- 微服务 - 分布式事务 - 2PC3PC
- 0005 - Hadoop-Shell命令指南大全
- 分布式技术专题带你彻底认识Paxos算法Zab协议和Raft协议的原理和本质
- Hadoop之常用概念
- 编程语言|替代 Postman + Swagger!Apifox 才是 YYDS!