PA视讯国际 PA国际

    服务器 2024-06-24

    KunTai R722服务器硬盘IO异常问题分析

    一、现网描述

    1.1 环境描述

    产品型号:KunTai R722

    硬件配置:MegaRAID 9560-8i 4GB、HUAWEI HWE62ST3480L003N、SP380、SP333

    软件配置:BMC、BIOS、CPLD版本:3.02.05.22、1.85、7.02


    二、故障描述

    5月22日凌晨4点57分NCE-Fabric控制器上报OVSDB链路断链、JsonRpc链路断链、设备状态Down等告警,几秒后自动清除,业务无影响

    image.png


    三、问题分析

    3.1   硬件日志分析

    1. 查看current_event日志文件,当前设备无告警,健康状态良好。

    image.png

    2. 分析sel事件记录日志,该设备在近期无问题相关异常事件打印。

    image.png

    3. 分析RAID_Controller_Info日志,当前raid卡9560-8i状态正常。

    image.png

    4. 分析Raid组状态,发现设备仅配置一个RAID10,当前状态正常。

    image.png

    5. 分析物理磁盘状态,发现Disk0有部分Other Error错误计数,说明该磁盘内部可能存在故障。

    image.png

    6. 分析LSI_RAID_Controller_Log日志,故障发生时raid控制器记录到Disk0出现Unexpected sense2/04/00报错。image.png

    7. 深入分析Raid卡日志,发现Disk0在2/04/00持续20s后触发reset复位。image.png

    8. 当前raid卡固件(5.200.02.3681)异常处理流程。

    image.png

    3.2   分析结论

    综上,故障发生是由于Disk0 磁盘异常并处于not ready状态,Raid卡在诊断磁盘状态时,会导致IO阻塞,使IO冲高到100%。


    四、问题解决

    4.1  解决办法

    更换问题硬盘Disk0;

    新版raid卡固件52.27.0-5172,已修复not ready导致IO长时间hang问题,升级Raid卡固件版本解决。

    DCSG01489595 Fix Ses device not ready handling path

    image.png

    检测到磁盘状态not ready之后,会做五次重试并且设备被标记为故障进行踢盘。整个重试过程会产生两秒延迟。当处理not ready情形,对于存储设备将交由上层(raid卡)处理重试。