トップ «前の日記(2022-09-30) 最新 次の日記(2022-10-02)» 編集

Orz日記 by Akio Morita

ToDo:

  • 15 SAD Fit[]回りの障害事例の解析
  • 10 smart pointer版PEGクラスの再実装(Left Recursionまわり)
2006|03|04|05|06|07|08|09|10|11|12|
2007|01|02|03|04|06|09|10|11|12|
2008|01|02|03|04|05|06|07|08|09|10|11|12|
2009|01|02|03|04|05|06|07|08|09|10|11|12|
2010|01|02|03|04|05|06|07|08|09|10|11|12|
2011|01|02|03|04|05|06|07|08|09|10|11|12|
2012|01|02|03|04|05|07|08|09|10|11|12|
2013|01|03|04|05|06|07|08|09|10|11|12|
2014|01|02|03|04|05|06|07|08|09|10|11|12|
2015|01|02|03|04|06|07|08|10|12|
2016|01|02|03|05|06|08|10|11|
2017|01|02|03|04|05|06|07|09|10|11|12|
2018|01|02|03|04|06|07|08|09|10|11|12|
2019|01|03|04|05|07|08|09|10|11|12|
2020|01|02|03|04|05|06|07|08|09|10|11|12|
2021|01|02|03|04|05|06|07|08|09|10|11|12|
2022|01|02|03|04|05|06|07|08|09|10|11|12|
2023|01|02|03|04|05|06|07|08|09|10|11|12|
2024|01|02|03|04|05|06|07|08|09|10|11|

2022-10-01 [長年日記]

_ [Ryzen]Ryzen 7950X組んでみた

マザーにCPUとクーラー本体取り付け後、ケースに入れる手順だが、 バックパネル裏に配置されているCPU12V 8pinコネクタの作業性がかなり悪い

CPU12V 8pinコネクタ周辺はVRMのヒートシンクに囲まれるので、天板が外れないケースの場合、手を入れるスペースが確保出来ない

マザー固定前に少しずらした状態でコネクタを接続して置くのが正解の模様、 天板が塞がっている場合、下側からのアプローチする形になるので、NH-U12Aだと排気側のファンを外しておくと作業しやすい

あと、ROG CROSSHAIR X670E GENEの場合、M-ATXのPCIe最上段スロット右側のネジ穴がロックリリース機構がレイアウトされて潰れているので、ベースから受け座を外しておくこと

起動確認・memtest開始

とりあえず、拡張カード/ストレージ無しの状態にType-C alt mode→HDMIアダプタ経由のコンソールで起動試験実施

UEFI設定画面を確認して、メモリ回りのAMD EXPO設定を有効にしてから、memtest86開始

memtest86動作中のCPU温度(POST LED)とシステム電力(ワットメーター)は、50℃/150W ~ 60℃/190W

同一ケース・同一ファンの運用機より排気音が少しうるさいのだが、 どうもマザー上のファンコネクタだが、CPU関連とケースファン1系統以外はフルスピード固定の模様

4pinファンコネクタだがマニュアル上の名称がFS_FAN#なので、初期設定というより回転数制御自体が未実装の模様

必要なら負荷試験の様子を見ながら、排気側ケースファンにLNA追加して調整かなぁ…

ファン配線変更

フロント吸気系をCHA_FANPに、バック排気系をCPU_OPT(CPU_FAN連動)に配線変更

FreeBSDインストーラ

13.1-RELEASEのインストーラUSBだと、atkbdc0とuart0を認識したところで停止してしまう模様

あとで、13-STABLE/SNAPとか14-CURRENTを試してみよう…14-CURRENT 2022/09/30 n258315のmemstick版も同じ所で固まる

Ryzen 5950Xで動いているFreeBSD 13-STABLEのdmesgからの類推だと、その後はhwpstate周りなのでcpufreqドライバ周りの対応が必要?

OCCTによる初動負荷試験

動作テスト用のWindows10環境を構成して、OCCT11.0.12にてテスト実施

  • CPUテスト16core(SMT off)だと全コア平均5.2GHzでTcpu~95℃の状態で安定化する
  • CPUテスト1core(SMT off)だと動作coreがホッピングするようで、安定に計測できていないが最大クロックは5.6~5.7GHz出ている模様
  • Linpackテストでエラーが出る (memoryをAMD EXPOからJEDEC Normalに戻しても変わらず)

なんか、FP回りの動作が不穏

他のLinpack系テストツールでもエラーが出ており、Ryzen MasterでECOモードなどでクロック・電力制限をかけた状態でも再現している

MultipassなLinpackテストだと、passとFAILが両方あり、passのケースではresidual一定(計算が所定の誤差で再現している)だが、FAILのケースのresidualが一定していない(計算毎に結果がバラついてる)

OCCT Linpackエラー

電力不足を疑いCPU 12V 8pin x1を x2に増設したところ、JEDEC Normal/OCCT Linpack AMD64では出なくなった模様前回と違い開始1分では出ないが、10分過ぎた辺りから発生し始めた

当然だが、CPU 12Vライン改修直後はコールドスタートなので、コンポーネント温度が原因?

CPU温度に関しては開始直後に飽和しているで、それ以外のコンポーネントか?

電源電圧の不安定化であればVRM温度、CPU以外でベンチマークコードの実行結果に直接関わるのはものは、メモリーバス(バックプレーン)とDDR5メモリ本体(データ化けが起こっているのならば説明が付くが、memtestでかからないのはなぜ?アクセス頻度の違いで稼働温度が異なるのか?)

状況的にCPU向けの12Vラインが、FP負荷時の容量不足による不安定化してるぽぃが、マザーのマニュアルではCPU 12V 8pinの接続はx1 or x2と記述されており、TDP枠からの要求が記述されていないのでドキュメントのミスな気がする

マザーごと換装するケースでは、既設のCPU 12V 8pin x1を流用してハマる臭い(TDP105Wの 7700X/7600Xは問題ないのかも)

DIMM冷却試験

LinpackベンチでFAILが出ている状況とDIMM周りをブロアで吹いた状況でLinpackベンチがpassする状況(まだ積算時間が短い)を比較してみたが、 DIMM SPD Hub Temp.にて40℃未満はpass・45℃以上だとFAILしているように見える

検証用のファンを設置して長時間試験を企画中…

現時点の調査課題まとめ

  • OCCT Linpackテストでエラーが出る件
    • DIMMモジュールにファンを設置して、SPD Hub Tempを40℃以下に抑えた状態で長時間テストを行い因果関係をはっきりさせる
    • 120mmファンで風を流しても、Linpack負荷だと15分ほどで平衡温度43℃に達する模様
      • 40℃を越えるとぽつぽつLinpackエラーが出てくる
      • 近傍空気温度25℃環境にて、平衡温度はアイドリング 30℃、OCCT CPUテスト中 32.5℃程度
        • OCCT CPUテストで不具合が出てないのは、メモリフットプリントが小さく負荷がかかってないからか?
      • OCCT MEMテスト実施、1~2分ほどでTspd 40℃を突破、41℃辺りからメモリエラーが検知され始める
    • エアコン全開でガクガク震えながら環境温度を22℃まで下げると、OCCT Linpackはエラー無しで動くようになったTspd~40℃で平衡
      • OCCT MEMテストでは、Tspd~40℃越える辺りからやはりエラー多発
    • 万策尽きて、検証用のドノーマルのDDR5モジュール用意すべきか考えたが、だめもとでUEFIファームアップデート実施
      • Ver.0420 @ 2022/08/10 (AGESA 1.0.0.1) → Ver.0614β @ 2022/09/23 (AGESA 1.0.0.2)
      • DDR5-4800 ノーマルで OCCT MEMテスト Tspd~50℃の状態 (冷却は標準状態に復帰)でクリア
  • FreeBSD memstickインストーラがブートしない件
    • 14-CURRENTベースで検証を継続する
    • boot verboseモードでスタックしている部分を絞り込む
      • ドライバの無効化を試みる uartドライバの無効化で起動可能になる
        • hint.uart.0.disabled=1 (こちらは不要かも)
        • hint.uart.1.disabled=1

カテゴリー: Admin | Emacs | EPICS | Fortran | FreeBSD | GCC | hgsubversion | IPv6 | KEKB | LHC | Lisp | LLVM | MADX | Ryzen | SAD | samba | tDiary | unix | WWW | YaSAI | お仕事 | イベント | 出張 | 宴会 | 数学 | 艦これ | 買いもの | 追記 | 雑記