トップ «前の日(12-28) 最新 次の日(12-30)» 追記

Orz日記 by Akio Morita

ToDo:

  • 15 SAD Fit[]回りの障害事例の解析
  • 10 smart pointer版PEGクラスの再実装(Left Recursionまわり)
2006|03|04|05|06|07|08|09|10|11|12|
2007|01|02|03|04|06|09|10|11|12|
2008|01|02|03|04|05|06|07|08|09|10|11|12|
2009|01|02|03|04|05|06|07|08|09|10|11|12|
2010|01|02|03|04|05|06|07|08|09|10|11|12|
2011|01|02|03|04|05|06|07|08|09|10|11|12|
2012|01|02|03|04|05|07|08|09|10|11|12|
2013|01|03|04|05|06|07|08|09|10|11|12|
2014|01|02|03|04|05|06|07|08|09|10|11|12|
2015|01|02|03|04|06|07|08|10|12|
2016|01|02|03|05|06|08|10|11|
2017|01|02|03|04|05|06|07|09|10|11|12|
2018|01|02|03|04|06|07|08|09|10|11|12|
2019|01|03|04|05|07|08|09|10|11|12|
2020|01|02|03|04|05|06|07|08|09|10|11|12|
2021|01|02|03|04|05|06|07|08|09|10|11|12|
2022|01|02|03|04|05|06|07|08|09|10|11|12|
2023|01|02|03|04|05|06|07|08|09|10|11|12|
2024|01|02|03|04|05|06|07|08|09|10|11|

2018-12-29

_ [FreeBSD][Ryzen]Ryzen Threadripper 2950Xストレステスト

下記の試験条件で、34時間25分でハングアップ

  • ASRock X399M Taichi beta BIOS 3.22A(ThreadRipperPI-SP3r2 1.1.0.2)
  • SMT off(machdep.hyperthreading_allowed=0)
  • Errata workaround適用(1021, 1033, 1049, 1091, 1095, 1109)
  • powerdなしで、P-state固定(dev.cpu.0.freq=2200)
  • NVMeなし・SATA SSD1台構成
  • Tctl 80℃以下を維持する冷却
  • FreeBSD 12-STABLEにて、make -j16 buildworld buildkernelをエンドレス実行

どうやら、動的なP-state変更とNVMeは直接の原因では無い模様

万策尽きてきた感が…

まだ、冷却系を出力全開にしていないので、CPU系の動作不良が原因ならさらに動作温度を下げるとか、コア電圧を盛って改善するかを確かめるという手が残っている(Threadripper1の初期出荷版で起こったRayzen SEGV Battleでは、電圧を盛ると動作が改善するケースが報告されていたようだったがはたして)

_ [雑記]家LAN障害再び

一昨日のLAN落ちと似た障害が発生

前回と異なり、今度は ix0が再リンクせずにダウンしっ放しの状態に Orz

  1. ifconfigでdown/upしたり、LANケーブルを抜き差ししても再リンクしない(status: no carrierでNIC側のLED消灯状態)
  2. ix0は Intel X550-T2の第一ポートなので、予備の第二ポート(ix1)にケーブルを差し替えてifconfig upするとリンクする

どうやら予備のix1側のポートは稼働するので、ケーブル差し替え&鯖の設定を変更してリブート(ホットリスタート)して家LANを復帰させる

どうやら、スイッチ側ではなく、鯖のNIC側の問題の模様

/var/log/messageによれば、14:05頃からdhcpdがパケットの送出に失敗している

Dec 29 13:53:19 aeka sshguard[1507]: Attack from "122.226.181.167" on service 100 with danger 10.
Dec 29 13:55:23 aeka sshguard[1507]: Attack from "36.156.24.94" on service 100 with danger 10.
Dec 29 13:56:14 aeka sshguard[1507]: Attack from "124.13.47.41" on service 100 with danger 10.
Dec 29 14:05:54 aeka dhcpd[1405]: send_packet: Host is down
Dec 29 14:05:54 aeka dhcpd[1405]: dhcp.c:4023: Failed to send 307 byte long packet over fallback interface.

14:53頃に一瞬リンクが途絶し、直後に再度リンクダウンし以降復帰していない

Dec 29 14:41:26 aeka sshguard[1507]: Attack from "59.11.138.177" on service 100 with danger 10.
Dec 29 14:45:46 aeka sshguard[1507]: Attack from "71.6.232.6" on service 100 with danger 10.
Dec 29 14:53:02 aeka kernel: ix0: TX(0) desc avail = 34, pidx = 1264
Dec 29 14:53:02 aeka kernel: ix0: link state changed to DOWN
Dec 29 14:53:02 aeka kernel: ix0.2: link state changed to DOWN
Dec 29 14:53:02 aeka kernel: ix0: link state changed to UP
Dec 29 14:53:02 aeka kernel: ix0.2: link state changed to UP
Dec 29 14:53:03 aeka kernel: ix0: link state changed to DOWN
Dec 29 14:53:03 aeka kernel: ix0.2: link state changed to DOWN
Dec 29 14:53:04 aeka kernel: ix0: TX(0) desc avail = 2048, pidx = 0
Dec 29 14:53:33 aeka syslogd: last message repeated 16 times

その後は、ix0: TX(0) desc avail = 2048, pidx = 0を出しつづけている (メッセージの出力元は、sys/net/iflib.c)

状況からすると、可能性としては

  • X550-T2の第一ポートのハードウェアの不良
  • ix driverの不具合で、ethernetコントローラがおかしな状態に入っている
    • 12/27の障害時のようにコールドリスタートした際に第一ポートが復帰するか確認していない
    • ホットリスタート後の状態で、第一ポートをifconfig upしてケーブルを挿すと物理リンクは確立する(IPレベルの通信は検証していない)

ポート単位のハードウェア障害だとすると、症状が進行している?

それとも、12/27の障害後にスイッチのファームウェア更新で挙動が変わった?

ix driver側の更新は、直近は 2018/12/04の r341427、その前は 2018-10-14の r339354

現在のカーネルは 12/15にビルドした r342079M

その前のカーネルは 12/09にビルドした r341726M

単純に ix driver起因なら、最初の発生が12/27でコールドリスタート後の再発生が12/29なので発生頻度的に、もっと前に起こっていた可能性が高いと考えられる

やはり、NICのポート故障の線かなぁ… 予備を用意しないと Orz

X550-T2の購入時期は2016/08頃、運用投入は2016/11/12なので、運用期間だと2年強なので寿命にしては短い気が…


カテゴリー: Admin | Emacs | EPICS | Fortran | FreeBSD | GCC | hgsubversion | IPv6 | KEKB | LHC | Lisp | LLVM | MADX | Ryzen | SAD | samba | tDiary | unix | WWW | YaSAI | お仕事 | イベント | 出張 | 宴会 | 数学 | 艦これ | 買いもの | 追記 | 雑記