因为ceph集群的服务器硬盘都是直通的,当我们发现有硬盘存储坏道需要更换硬盘,但是因为盘序可能不是连续的,无法定位服务器上那块硬盘是故障的,如果冒然测试可能把正常的硬盘拔出,得不偿失,所以就写一下我定位故障硬盘的思路。
一、硬盘定位思路
如果硬盘离线了,直接可以通过阵列卡管理工具看到,以下思路适用于故障硬盘亚健康但未离线。
1、找到损坏的硬盘设备,如/dev/sdad
;
2、通过smartctl
工具找到硬盘的SN号;
3、通过阵列卡工具找到对应序列号对应的服务器的槽位号;
4、点亮硬盘的定位灯,更换硬盘,问题解决;
二、LIS阵列卡通过Storcli工具定位
1、Storcli工具安装
工具安装移步 ->https://www.xxshell.com/2800.html
2、获取故障硬盘SN
通过 smartctl --all /dev/sdad
找到硬盘SN序列号。
3、通过Storcli找到硬盘solt
通过./storcli64 /call /eall /sall show all |grep -5 -i WKD26RCS
筛选硬盘SN找到Slot;
4、点亮硬盘定位灯更换硬盘
通过./storcli64 /c0/e0/s23 start locate
点亮定位灯
三、通过Arcconf工具定位硬盘
如果RAID卡是LSI SAS2208、LSI SAS2308、LSI SAS3008、LSI SAS3108、LSI SoftRAID、PM8060、PM8068则无法通过Storcli去管理,则需要通过Arcconf去管理。
1、Arcconf下载
2、通过Arcconf筛选问题盘
通过Arcconf可以直接通过盘符筛选问题硬盘,通过./arcconf-linux getconfig 1 pd |grep -5 -i "sdd"
可以直接筛选出来。
3、开启硬盘定位灯
通过命令./arcconf-linux identify 1 device 0 21
开启硬盘定位灯,方便更换。