Intel S4510 S4610 1.92T 3.84T SSD掉盘问题
发布时间: 2019年12月17日
问题描述
intel S4510 1.92T&3.84T SSD FW存在一个严重BUG,会导致服务器掉盘或OS报错。
涉及范围
FW为XCV10100的intel S4510&S4610 1.92T&3.84T SSD,PN如下
V023105000000000 S4510 1.92T
V023102000000000 S4510 3.84T
V023123000000000 S4610 1.92T
处理方案
1、在线还可以识别的硬盘,升级fw解决,需要升级硬盘FW至XCV10110,升级方法与raid卡搭配有关。
XCV10110_XBUB0008_signed.bin文件MD5值如下,升级前请使用以下命令确认MD5值相同:
#md5sum XCV10110_XBUB0008_signed.bin
258CEEC92F6284907770BBD4E5F0BBF4
注:根据配置的raid卡型号选择升级方案,需要在线升级的联系后台技术支持咨询升级方案;
RAID卡 |
YZCA-00389-102 |
RAID卡_INSPUR_ PM8060_2GB_SAS12G_PCIE3.0 |
YZCA-00582-103 |
RAID卡_INSPUR_SAS3108_4GB_SAS12G_PCIE3 |
|
V020001000000000 |
RAID卡_L_8R0_9271-8i_1G_MSAS600_PCIE3_V2 |
|
V06B411000000013 |
RAID卡_L_8R0_9361-8i_1GB_HDM12G_PCIE3.0 |
|
V06B611000000013 |
RAID卡_L_8R0_9361-8i_2GB_HDM12G_PCIE3.0 |
|
YZCA-00424-102 |
SAS卡_INSPUR_SAS3008+IR+PCIE3.0 |
2、对于已经故障无法升级fw的硬盘,换用已经升级fw后的新编码硬盘,具体编码如下:
V023102000000000 | 硬盘_I_3.84KTD_SSDSC2KB038T8_T2_6_100_451 | V023170000000000 | 硬盘_I_3.84KTD_SSDSC2KB038T8_T2_6_110_451 | 3.84T |
V023105000000000 | 硬盘_I_1.92KTD_SSDSC2KB019T8_T2_6_100_451 | V02316M000000000 | 硬盘_I_1.92KTD_SSDSC2KB019T8_T2_6_110_451 | 1.92T |
V023123000000000 | 硬盘_I_1.92KTD_SSDSC2KG019T8_T2_6_100_461 | V023177000000000 | 硬盘_I_1.92KTD_SSDSC2KG019T8_T2_6_110_461 |
补充说明(重要!):旧版FW的盘可能已经有异常,但是没有掉线,有隐患!!!需要结合日志判断所有老FW版本硬盘的当前状态,确认方法如下,只要有报错也需更换。
通过如下四点信息确认硬盘状态:
a) smart信息该项为0正常: 184/B8 end-toend error detection count
b) smart信息该项为0正常:187/BB uncorrect error count
c) raid卡日志下看到硬盘predictive failure count为0正常;
d) raid卡日志下看到硬盘无media error则盘正常;
smart信息查看方法(推荐使用linuxPE,已经有storcli工具,在/opt/Megasas目录)
1、 使用storcli64查看SSD在raid卡下的DID号,
./storcli64 /c0/eall/sall show
2、根据磁盘DID号,透过raid阵列去查看硬盘smart信息(确认上述两项ab两项smart信息) smartctl -a --device=sat+megaraid,12 /dev/sdb
(其中sdb为硬盘所属raid在OS下的盘符)
RAID卡日志在线查看方法
1、执行./storcli /c0/eall/sall show all |grep “Predictive Failure Count” -----查看PDlist中硬盘是否有预期错误,下方为日志内容(非命令直接打印内容)
2、执行./storcli /c0 show alilog |grep “medium error“ ------查看日志历史记录是否有其它盘报错(注意区分已经掉线的盘)
故障根因
Intel S4510/S4610(2.5寸)的低版本FW(XCV10100)存在“Idle状态超过1700H掉盘”问题(此问题存在1.92T&3.84T产品)。当Intel S4510/S4610处于Idle状态(非IO读写)下,SSD内部后台会进行Nand Intel SSD D3 block温度扫描,当Idle状态达到1700H后,时间寄存器会达到上限,导致Block指针和CE芯片的偏移,从而发生Channel Hang,Channel Hang触发后会发生掉盘或media error现象。