SSD 寿命擦写耗尽问题判断及处理策略
发布时间: 2019年12月17日
问题描述
SSD写入量达到设计极限,颗粒擦写寿命耗尽后会导致磁盘写入速度非常缓慢,读取正常。
使用smartctl及raid卡管理软件查看硬盘smart信息可以发现Media_Wearout_Indicator值降为1,表明寿命完全耗尽。
涉及范围
所有SSD
处理方案
查看SSD smart信息方法:
1、使用storcli64查看阵列卡下挂载的设备序号
./storcli64 -pdlist -a0 |grep Id |awk '{print $3}'
Device Id: 17
Device Id: 18
......
2、根据磁盘Media_Wearout_Indicator值判断是否寿命耗尽
smartctl -a --device=sat+megaraid,17 /dev/sda | grep 'Media_Wearout_Indicator'
smartctl -a --device=sat+megaraid,18 /dev/sdb | grep 'Media_Wearout_Indicator'
其中sda,sdb为硬盘所属raid在OS下的盘符
3、 固态硬盘的保修期除了会受到使用年限的影响之外,还可能会受到能够写入硬盘的最大数据量的影响,最大数据量由硬盘的具体生产厂家以及具体型号决定。如果经浪潮公司鉴定,硬盘的写入数据量已达到或超过最大限制,浪潮公司将不会按照保修政策予以维修和更换”
故障根因
SSD闪存颗粒寿命耗尽
********************************************
smart完整输出
SMART Attributes Data Structure revision number: 1
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
5 Reallocated_Sector_Ct 0x0032 100 100 000 Old_age Always - 0
9 Power_On_Hours 0x0032 100 100 000 Old_age Always - 9738
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 8
170 Unknown_Attribute 0x0033 100 100 010 Pre-fail Always - 0
171 Unknown_Attribute 0x0032 100 100 000 Old_age Always - 0
172 Unknown_Attribute 0x0032 100 100 000 Old_age Always - 0
174 Unknown_Attribute 0x0032 100 100 000 Old_age Always - 6
175 Program_Fail_Count_Chip 0x0033 100 100 010 Pre-fail Always - 283468968878
183 Runtime_Bad_Block 0x0032 100 100 000 Old_age Always - 0
184 End-to-End_Error 0x0033 100 100 090 Pre-fail Always - 0
187 Reported_Uncorrect 0x0032 100 100 000 Old_age Always - 0
190 Airflow_Temperature_Cel 0x0022 075 075 000 Old_age Always - 25 (Min/Max 18/25)
192 Power-Off_Retract_Count 0x0032 100 100 000 Old_age Always - 6
194 Temperature_Celsius 0x0022 100 100 000 Old_age Always - 25
197 Current_Pending_Sector 0x0012 100 100 000 Old_age Always - 0
199 UDMA_CRC_Error_Count 0x003e 100 100 000 Old_age Always - 0
225 Unknown_SSD_Attribute 0x0032 100 100 000 Old_age Always - 68389846
226 Unknown_SSD_Attribute 0x0032 100 100 000 Old_age Always - 55828
227 Unknown_SSD_Attribute 0x0032 100 100 000 Old_age Always - 0
228 Power-off_Retract_Count 0x0032 100 100 000 Old_age Always - 584249
232 Available_Reservd_Space 0x0033 100 100 010 Pre-fail Always - 0
233 Media_Wearout_Indicator 0x0032 046 046 000 Old_age Always - 0
234 Unknown_Attribute 0x0032 100 100 000 Old_age Always - 0
241 Total_LBAs_Written 0x0032 100 100 000 Old_age Always - 68389846
242 Total_LBAs_Read 0x0032 100 100 000 Old_age Always - 1011
243 Unknown_Attribute 0x0032 100 100 000 Old_age Always - 78504917
intel SSD
固态硬盘处于锁定的只读模式
文档
维护与性能
000022714
2019 年 03 月 14 日
进入锁定只读模式的固态盘 发生的原因只有一个。以下是有关该问题以及如何避免此问题的更多信息。
发生了什么事情?
一旦过度配置的空间耗尽, 并且驱动器超过其生存期写入,固态盘 可能会进入锁定的只读模式。smart 属性e9下的媒体磨损指示器测量生存期写入。
注意 | 英特尔® 固态硬盘的有限保修 定义为先获得的保修期: 自购买之日起五年 (取决于型号) 或 smart 属性 e9 达到归一值的归一值后。这个价值开始于100在全新的, 未使用的驱动器。 |
何时发生此问题?
当客户购买错误类型或型号的固态硬盘的预期用途时, 会出现此问题。
消费类、专业驱动器和数据中心驱动器是为不同目的而设计的, 因此它们具有不同的耐久性等级。对于大多数最终用户来说, 他们的驱动器从未接近于达到其生存期写入限制。但是, 服务器中使用的使用者 ssd 可能会在较短的时间内达到此限制。
你可以在每个 ssd 的ark 页面上找到耐力等级又一终身写入信息。写入的 tb (tbw) 或其他写的 (pbw) 表示 "耐力等级", 并指定主机可以写入 ssd 的最大 tb 数。它使用为应用程序类指定的工作负载, 同时仍然满足应用程序类的要求。
我们建议您购买最适合您需求的硬盘。找到合适的人选可以保持长期满意度, 并有助于避免不必要的失败。请参阅为什么选择数据中心类固态硬盘?
我们还建议您研究不同的 ssd 型号, 并在购买前与预期用途进行比较。为了说明这一点, 我们可以比较以下类似的存储容量版本:
- 英特尔® 固态盘 DC S3500 系列
- 英特尔® 固态盘 DC S3710 系列
- 英特尔® 固态盘 DC P3608 系列
issdcm可以查看相关信息
issdcm –drive_list 先列出来盘系
issdcm –drive_index X –smart X是上面看到的盘符
列出来smart属性,看E8项,表示盘可用空间,看RAW值,由100往下降,阈值是10 ,E9即Media_Wearout_Indicator可以读取查看。
E8 Available 0 100 10 100 51 Pass
Reserved