1.
分析down的osd的日志
分析osd down时间点的对应osd的日志,发现down的osd有相似打印,与其他osd心跳失联,被mon标down,以osd.421(node14)为例,
2.
分析mon日志
分析mon中对应时间点日志打印,发现node14由于存储网前端网原因被标down,所以初步怀疑为存储网异常原因导致osd down。
3.
分析NM日志
三个节点在osd down的时间点均有存储网与其他节点存储网无法连通,
4.
分析messages日志
node9中有堆栈打印,如下图,通过定位该打印与网卡开启流控有关。
同时,node9和node14在osd down的时间段均有以下打印,存在网卡crash和tx-timeout,参考重燃集团定位结论该网口开启了流控所致。
5.
分析交换机日志
交换机侧绝大多数是协议down,少部分是物理down。
node12、node9、node14时间点分别为12月2日17:38、17:46、21:31”对应的交换机端口都是协议down,12月2号只有一次物理down是17:04。
协议down的原因是lacp握手报文超时,会导致聚合协议down。
物理down的部分,目前看到的都是发生在slot1上,但是这些端口与slot2上的端口是跨板聚合。
关于错包,部分端口有错包,但是都不多,最多的是在2/0/17上是313个,但是这个端口没有发生过up/down,所以跟UP/DOWN问题应该没关系。
6.
查看客户业务情况
客户的业务在节点异常时基本在2GB/s左右。