写在开头:
稀里糊涂大半年没有更新过这个博客了。最近突然觉得记忆力下降的势头开始明显起来了,感觉还是要抓起这个博客,记录一些经验、想法备查。
两个月前,管理计算集群的小伙伴出国交流了,这下集群日常维护的工作一下转到我身上了。这下也终于稍微深入一点地了解了一下集群概况。这个建立于2011年的计算集群硬件构成如下:
管理节点*1+存储管理节点*1(包含一个总容量6T的磁盘阵列,对外以10G InfiniBand互联)+刀片式计算节点*10(每个节点:4路Opteron+64GiB RAM+128GiB SSD)
这样一套系统,除了内存稍大以外,其余的性能其实也并不出彩了。这个计算集群现在主要也就承担学院内Lumerical FDTD计算的使用。长期使用带来的问题是小毛病不断:10个计算节点中,尚能正常工作的节点已经只剩下5~6个了,据说曙光的售后过保后就没啥动力来管了,有问题也就是推荐换新的系统。
1月接手后,尝试启动一些之前因故障关闭的计算节点,看看是什么问题。其中两个节点报错:
ata3.00: status: { DRDY ERR }
…
mount: error mounting /dev/root on /sysroot as ext3: Invalid argument
…
查了一下大概是硬盘的问题,分区挂载不上。联想起之前围观过一次工程师来修集群,换了一个固态。嗯,那应该是和硬盘有关系?拆了个硬盘下来,居然长这样:
乍一看右侧是SATA的数据口,可左边的接口又不太对劲,并不是一般硬盘上的那种接口。一查才知道这接口算是有年头:这居然是叫microSATA接口。
这当然难不倒万能的淘宝科研er。很轻松地就找到了这样地转接卡:micro SATA转2.5″ SATA卡:
问题当然不会这样简单地解决的。直接插上这张卡,硬盘还是不能被识别——总不至于这些硬盘都坏掉吧。
后找来硬盘的datasheet(没找到这一款1.8英寸盘的,只有2.5英寸版本的),发现问题是出在硬盘的供电上:
硬盘要求5V供电,而这里的microSATA转接卡提供的是3.3V的电压,5V的供电脚直接就是一个空脚,自然是不能够直接驱动这个固态的了。考虑到USB-SATA的转接板那么多,转接板总是得有5V供电的吧。查阅转接卡使用的LDO供电芯片AMS1117,其输入脚正好与5V电压连接的的,所以从SATA口电源一侧的P7~P9飞一根线到LDO的5V供电脚就解决问题了。
然后顺利抢救出一个系统的镜像,后面再有硬盘坏也是可以抢救的了。毕竟,红帽5的系统,我是没本事也不打算重装或升级的。