ToDo:
下記の試験条件で、34時間25分でハングアップ
どうやら、動的なP-state変更とNVMeは直接の原因では無い模様
万策尽きてきた感が…
まだ、冷却系を出力全開にしていないので、CPU系の動作不良が原因ならさらに動作温度を下げるとか、コア電圧を盛って改善するかを確かめるという手が残っている(Threadripper1の初期出荷版で起こったRayzen SEGV Battleでは、電圧を盛ると動作が改善するケースが報告されていたようだったがはたして)
一昨日のLAN落ちと似た障害が発生
前回と異なり、今度は ix0が再リンクせずにダウンしっ放しの状態に Orz
どうやら予備のix1側のポートは稼働するので、ケーブル差し替え&鯖の設定を変更してリブート(ホットリスタート)して家LANを復帰させる
どうやら、スイッチ側ではなく、鯖のNIC側の問題の模様
/var/log/messageによれば、14:05頃からdhcpdがパケットの送出に失敗している
Dec 29 13:53:19 aeka sshguard[1507]: Attack from "122.226.181.167" on service 100 with danger 10. Dec 29 13:55:23 aeka sshguard[1507]: Attack from "36.156.24.94" on service 100 with danger 10. Dec 29 13:56:14 aeka sshguard[1507]: Attack from "124.13.47.41" on service 100 with danger 10. Dec 29 14:05:54 aeka dhcpd[1405]: send_packet: Host is down Dec 29 14:05:54 aeka dhcpd[1405]: dhcp.c:4023: Failed to send 307 byte long packet over fallback interface.
14:53頃に一瞬リンクが途絶し、直後に再度リンクダウンし以降復帰していない
Dec 29 14:41:26 aeka sshguard[1507]: Attack from "59.11.138.177" on service 100 with danger 10. Dec 29 14:45:46 aeka sshguard[1507]: Attack from "71.6.232.6" on service 100 with danger 10. Dec 29 14:53:02 aeka kernel: ix0: TX(0) desc avail = 34, pidx = 1264 Dec 29 14:53:02 aeka kernel: ix0: link state changed to DOWN Dec 29 14:53:02 aeka kernel: ix0.2: link state changed to DOWN Dec 29 14:53:02 aeka kernel: ix0: link state changed to UP Dec 29 14:53:02 aeka kernel: ix0.2: link state changed to UP Dec 29 14:53:03 aeka kernel: ix0: link state changed to DOWN Dec 29 14:53:03 aeka kernel: ix0.2: link state changed to DOWN Dec 29 14:53:04 aeka kernel: ix0: TX(0) desc avail = 2048, pidx = 0 Dec 29 14:53:33 aeka syslogd: last message repeated 16 times
その後は、ix0: TX(0) desc avail = 2048, pidx = 0を出しつづけている (メッセージの出力元は、sys/net/iflib.c)
状況からすると、可能性としては
ポート単位のハードウェア障害だとすると、症状が進行している?
それとも、12/27の障害後にスイッチのファームウェア更新で挙動が変わった?
ix driver側の更新は、直近は 2018/12/04の r341427、その前は 2018-10-14の r339354
現在のカーネルは 12/15にビルドした r342079M
その前のカーネルは 12/09にビルドした r341726M
単純に ix driver起因なら、最初の発生が12/27でコールドリスタート後の再発生が12/29なので発生頻度的に、もっと前に起こっていた可能性が高いと考えられる
やはり、NICのポート故障の線かなぁ… 予備を用意しないと Orz
X550-T2の購入時期は2016/08頃、運用投入は2016/11/12なので、運用期間だと2年強なので寿命にしては短い気が…
カテゴリー: Admin | Emacs | EPICS | Fortran | FreeBSD | GCC | hgsubversion | IPv6 | KEKB | LHC | Lisp | LLVM | MADX | Ryzen | SAD | samba | tDiary | unix | WWW | YaSAI | お仕事 | イベント | 出張 | 宴会 | 数学 | 艦これ | 買いもの | 追記 | 雑記