硬件博物馆级集群维护记-计算节点microSATA硬盘的脱机读取与检测

写在开头:

稀里糊涂大半年没有更新过这个博客了。最近突然觉得记忆力下降的势头开始明显起来了,感觉还是要抓起这个博客,记录一些经验、想法备查。

两个月前,管理计算集群的小伙伴出国交流了,这下集群日常维护的工作一下转到我身上了。这下也终于稍微深入一点地了解了一下集群概况。这个建立于2011年的计算集群硬件构成如下:

管理节点*1+存储管理节点*1(包含一个总容量6T的磁盘阵列,对外以10G InfiniBand互联)+刀片式计算节点*10(每个节点:4路Opteron+64GiB RAM+128GiB SSD)

这样一套系统,除了内存稍大以外,其余的性能其实也并不出彩了。这个计算集群现在主要也就承担学院内Lumerical FDTD计算的使用。长期使用带来的问题是小毛病不断:10个计算节点中,尚能正常工作的节点已经只剩下5~6个了,据说曙光的售后过保后就没啥动力来管了,有问题也就是推荐换新的系统。

1月接手后,尝试启动一些之前因故障关闭的计算节点,看看是什么问题。其中两个节点报错:

ata3.00: status: { DRDY ERR }

mount: error mounting /dev/root on /sysroot as ext3: Invalid argument

查了一下大概是硬盘的问题,分区挂载不上。联想起之前围观过一次工程师来修集群,换了一个固态。嗯,那应该是和硬盘有关系?拆了个硬盘下来,居然长这样:

乍一看右侧是SATA的数据口,可左边的接口又不太对劲,并不是一般硬盘上的那种接口。一查才知道这接口算是有年头:这居然是叫microSATA接口。

这当然难不倒万能的淘宝科研er。很轻松地就找到了这样地转接卡:micro SATA转2.5″ SATA卡:

问题当然不会这样简单地解决的。直接插上这张卡,硬盘还是不能被识别——总不至于这些硬盘都坏掉吧。

后找来硬盘的datasheet(没找到这一款1.8英寸盘的,只有2.5英寸版本的),发现问题是出在硬盘的供电上:

硬盘要求5V供电,而这里的microSATA转接卡提供的是3.3V的电压,5V的供电脚直接就是一个空脚,自然是不能够直接驱动这个固态的了。考虑到USB-SATA的转接板那么多,转接板总是得有5V供电的吧。查阅转接卡使用的LDO供电芯片AMS1117,其输入脚正好与5V电压连接的的,所以从SATA口电源一侧的P7~P9飞一根线到LDO的5V供电脚就解决问题了。

然后顺利抢救出一个系统的镜像,后面再有硬盘坏也是可以抢救的了。毕竟,红帽5的系统,我是没本事也不打算重装或升级的。

一颗螺丝导致的血案-NVMe固态螺丝松动导致的离奇故障

故障症状:

  1. 开机登陆后长时间黑屏,仅鼠标可见。桌面显示后卡顿。
  2. 点开始菜单关机按钮无反应,之后会黑屏假死。
  3. 只能使用任务管理器用shutdown命令关机/重启
  4. 系统无故卡死,尤其是在移动笔记本电脑的过程中
  5. 事件记录器中查看到来源为Disk的错误记录:“设备 \Device\Harddisk0\DR0 有一个不正确的区块。”,数量上万条(图片是很多天后的,)。以及来源于stornvme的错误记录。

解决历程:

1.查资料,黑屏只见鼠标的症状

有人说是Intel处理器ME驱动与固件版本不对应的问题。恰逢电脑安装过一次更新后出现上述故障,怀疑是ME固件太老导致不匹配。

尝试:Intel官网下载ME固件刷新程序,刷新固件;HP官网下载BIOS固件刷新

结果:问题未解决

2.查事件记录器,发现24小时内大量Disk来源的故障

5月份的时候在狗东买了一根HP的NVMe固态给电脑换上。这个固态买得确实也有一点不值。似乎是电脑的问题,这支号称读速2000M+的固态在我这个笔记本上并不能跑满速,只有1200+左右。本来想无理由退货换个低一档的型号,可是装系统麻烦,也就作罢。

这次看到出现这么多错误,直接怀疑是固态不行了。说实话,HP这个EX 920固态实在。。。这个固态发售几个月了,官网也没有提供固件更新、驱动下载之类,甚至让人怀疑,这到底还是不是HP找工厂代工的产品了。

3.偶然拆机,发现固定NVMe固态的螺丝松脱,硬盘完全是靠笔记本D面固定。说来也是,当时安装这块硬盘时需要M3的螺丝,但找不到合适长度的,于是使用了一根更长的螺丝、用钳子剪掉一小截后安装的,可能确实有影响。换用合适长度的螺丝后,电脑恢复正常。