服务器、存储、网络产品购买热线:400-860-6708 ERP、管理软件购买热线:400-018-7700云服务产品销售热线:400-607-6657
clear
您当前所在位置: 首页 > 支持下载 > 技术帮助 > 常见问题 > 服务器

Intel S4510 S4610 1.92T 3.84T SSD掉盘问题

发布时间: 2019年12月17日

问题描述

intel S4510 1.92T&3.84T SSD FW存在一个严重BUG,会导致服务器掉盘或OS报错。

涉及范围

FW为XCV10100的intel S4510&S4610 1.92T&3.84T SSD,PN如下

V023105000000000  S4510  1.92T

V023102000000000  S4510  3.84T

V023123000000000  S4610  1.92T

处理方案

1、在线还可以识别的硬盘,升级fw解决,需要升级硬盘FW至XCV10110,升级方法与raid卡搭配有关。

XCV10110_XBUB0008_signed.bin文件MD5值如下,升级前请使用以下命令确认MD5值相同:

#md5sum XCV10110_XBUB0008_signed.bin
258CEEC92F6284907770BBD4E5F0BBF4

注:根据配置的raid卡型号选择升级方案,需要在线升级的联系后台技术支持咨询升级方案;

RAID卡

YZCA-00389-102

RAID卡_INSPUR_ PM8060_2GB_SAS12G_PCIE3.0

YZCA-00582-103

RAID卡_INSPUR_SAS3108_4GB_SAS12G_PCIE3

V020001000000000

RAID卡_L_8R0_9271-8i_1G_MSAS600_PCIE3_V2

V06B411000000013

RAID卡_L_8R0_9361-8i_1GB_HDM12G_PCIE3.0

V06B611000000013

RAID卡_L_8R0_9361-8i_2GB_HDM12G_PCIE3.0

YZCA-00424-102

SAS卡_INSPUR_SAS3008+IR+PCIE3.0

2、对于已经故障无法升级fw的硬盘,换用已经升级fw后的新编码硬盘,具体编码如下:

V023102000000000 硬盘_I_3.84KTD_SSDSC2KB038T8_T2_6_100_451 V023170000000000 硬盘_I_3.84KTD_SSDSC2KB038T8_T2_6_110_451 3.84T
V023105000000000 硬盘_I_1.92KTD_SSDSC2KB019T8_T2_6_100_451 V02316M000000000 硬盘_I_1.92KTD_SSDSC2KB019T8_T2_6_110_451 1.92T
V023123000000000 硬盘_I_1.92KTD_SSDSC2KG019T8_T2_6_100_461 V023177000000000 硬盘_I_1.92KTD_SSDSC2KG019T8_T2_6_110_461

补充说明(重要!):旧版FW的盘可能已经有异常,但是没有掉线,有隐患!!!需要结合日志判断所有老FW版本硬盘的当前状态,确认方法如下,只要有报错也需更换。

通过如下四点信息确认硬盘状态:

a)    smart信息该项为0正常: 184/B8  end-toend error detection count

b)   smart信息该项为0正常:187/BB uncorrect error count

c)     raid卡日志下看到硬盘predictive failure count为0正常;

d)   raid卡日志下看到硬盘无media error则盘正常;

smart信息查看方法(推荐使用linuxPE,已经有storcli工具,在/opt/Megasas目录)

1、 使用storcli64查看SSD在raid卡下的DID号,

./storcli64 /c0/eall/sall show

2、根据磁盘DID号,透过raid阵列去查看硬盘smart信息(确认上述两项ab两项smart信息)        smartctl -a --device=sat+megaraid,12 /dev/sdb 

(其中sdb为硬盘所属raid在OS下的盘符)

RAID卡日志在线查看方法

1、执行./storcli /c0/eall/sall show all |grep “Predictive Failure Count”  -----查看PDlist中硬盘是否有预期错误,下方为日志内容(非命令直接打印内容)

2、执行./storcli /c0 show alilog |grep “medium error“  ------查看日志历史记录是否有其它盘报错(注意区分已经掉线的盘)

故障根因

Intel S4510/S4610(2.5寸)的低版本FW(XCV10100)存在“Idle状态超过1700H掉盘”问题(此问题存在1.92T&3.84T产品)。当Intel S4510/S4610处于Idle状态(非IO读写)下,SSD内部后台会进行Nand Intel SSD D3 block温度扫描,当Idle状态达到1700H后,时间寄存器会达到上限,导致Block指针和CE芯片的偏移,从而发生Channel Hang,Channel Hang触发后会发生掉盘或media error现象。

关于浪潮

集团简介 企业文化 董事长致辞 加入我们 联系我们 关注我们

新闻与活动

新闻公告 市场活动 科技战“疫”

如何购买

需求工单 售前咨询 查找经销商

探索浪潮

通用服务器 存储 人工智能 爱城市网 浪潮云 浪潮云ERP

支持与服务

支持下载 视频中心 服务进度查询 安全通告

快速链接

合作伙伴生态 电子采购平台 投行项目 投资者关系 道德遵从

在社交媒体上关注我们

拨打咨询电话