トップ «前の日(11-23) 最新 次の日(11-25)» 追記

Orz日記 by Akio Morita

ToDo:

  • 15 SAD Fit[]回りの障害事例の解析
  • 10 smart pointer版PEGクラスの再実装(Left Recursionまわり)
2006|03|04|05|06|07|08|09|10|11|12|
2007|01|02|03|04|06|09|10|11|12|
2008|01|02|03|04|05|06|07|08|09|10|11|12|
2009|01|02|03|04|05|06|07|08|09|10|11|12|
2010|01|02|03|04|05|06|07|08|09|10|11|12|
2011|01|02|03|04|05|06|07|08|09|10|11|12|
2012|01|02|03|04|05|07|08|09|10|11|12|
2013|01|03|04|05|06|07|08|09|10|11|12|
2014|01|02|03|04|05|06|07|08|09|10|11|12|
2015|01|02|03|04|06|07|08|10|12|
2016|01|02|03|05|06|08|10|11|
2017|01|02|03|04|05|06|07|09|10|11|12|
2018|01|02|03|04|06|07|08|09|10|11|12|
2019|01|03|04|05|07|08|09|10|11|12|
2020|01|02|03|04|05|06|07|08|09|10|11|12|
2021|01|02|03|04|05|06|07|08|09|10|11|12|
2022|01|02|03|04|05|06|07|08|09|10|11|12|
2023|01|02|03|04|05|06|07|08|09|10|11|12|
2024|01|02|03|04|05|06|07|08|09|10|11|12|
2025|01|02|03|04|05|06|07|08|09|10|11|12|

2017-11-24

_ [SAD]Re/Im/Conjugate実装の怪

Listに対しては、Map的に作用する1引数数学関数として、tfefunrefから tfcmplxf@src/tfeexpr.f経由で実装しており、mode引数は Re/Im/Conjugateに対して1/2/3が割り当てられているのだが、List再帰条件がtflistq(it,ia) .or. mode .eq. 3で設定されているので、

Re[{1, 2+I, I}] -> {1, 2, 0}
Re[a[1, 2+I, I]] -> Re[a[1, (2+I), I]]
Im[{1, 2+I, I}] -> {0, 1, 1}
Im[a[1, 2+I, I]] -> Im[a[1, (2+I), I]]
Conjugate[{1, 2+I, I}] -> {1, (2-I), (-I)}
Conjugate[a[1, 2+I, I]] -> {1, (2-I), (-I)}

のような謎動作となる。 ちぐはぐな動作なので、実装バクっぽぃ

仮に、List以外のコンテナ型に対して作用させるなら

Conjugate[a[1, 2+I, I]] -> a[1, (2-I), (-I)]

を返すべきだと思うが、Complex型もコンテナ型なので Conjugate[Complex[a, b]]は、Complex[Conjugate[a], Conjugate[b]]のように評価すべきという話となり一貫性を欠く

他の数学関数と同様のframeworkで綺麗に実装出来るのだが、この変な挙動に依存したコードが存在したらどうしよう…

_ [SAD]OddQバグ

内部的にOddQ[x_Real] := EvenQ[x+1]で実装しており、内部表現がIEEE754倍精度浮動小数点なので、OddQ[2^53]Trueになってしまう

2^53は、仮数部の最小単位が2になっているので、正の方向の次の浮動小数点は2^53 + 2となり隣の整数値が表現出来ない


2025-11-24

_ [雑記]RTL8127 NIC導入試験

暫く前から流通しているRTL8127 10GbE NICだが、国内メーカー製が流通し始めたので、LGY-PCIE-MG3を調達し既設のAQC107Sと入れ替え実施

換装前後の通信速度をbenchmarks/netioで簡易測定した

AQC107Sと異なり、TCP 1 connectionで素直に性能が引き出せる上に、最新世代の半導体採用により低発熱化されており、次世代定番にふさわしい出来

RTL8127系Chip自体はPCIe x2 or x4のバリエーションもあるらしいが、 本機LGY-PCIE-MG3はPCIe Gen4 x1仕様なので、Gen3スロットに装着すると10Gbpsに届かなくなるのが注意点

Jumbo Frameに関しては、RTL8127側のMTUを振ってベンチマークした範囲では、トップスピードの伸びはMTU 4000 octet付近が一番よかった。

測定環境

  • netio server - Ryzen 9950X + B650 + Connect X-6 Lx (SFP+ DA接続)
  • netio client - Ryzen 7950X + B850 + RTL8126(内蔵) / AQC107S(既設) / RTL8127(購入品)
  • Network Switch - QSW-M1208-8C
  • OS - FreeBSD stable/15
    • Jumbo Frame MTU 9000
    • net/realtek-re-kmod v1101.00 (エラッタノートに従い Checksum offloading disableにて測定)
    • net/aquantia-atlantic-kmod v0.0.5_3
    • OpenBSD rgeドライバ移植版 (追加)

RTL8126 / MTU 9000 (MSI B850 TOMAHAWK MAX WiFi内蔵・net/realtek-re-kmod v1101.00)

Packet size  1k bytes:  418.08 MByte/s Tx,  445.19 MByte/s Rx.
Packet size  2k bytes:  503.43 MByte/s Tx,  455.32 MByte/s Rx.
Packet size  4k bytes:  479.57 MByte/s Tx,  458.32 MByte/s Rx.
Packet size  8k bytes:  497.26 MByte/s Tx,  486.15 MByte/s Rx.
Packet size 16k bytes:  496.16 MByte/s Tx,  485.87 MByte/s Rx.
Packet size 32k bytes:  492.06 MByte/s Tx,  474.84 MByte/s Rx.
  • 5Gbps接続の性能が素直に出ている

AQC107S / MTU 9000 (PCIe Gen4 x4スロット上・net/aquantia-atlantic-kmod v0.0.5_3)

Packet size  1k bytes:  342.60 MByte/s Tx,  485.58 MByte/s Rx.
Packet size  2k bytes:  389.57 MByte/s Tx,  516.60 MByte/s Rx.
Packet size  4k bytes:  398.00 MByte/s Tx,  531.74 MByte/s Rx.
Packet size  8k bytes:  381.86 MByte/s Tx,  548.03 MByte/s Rx.
Packet size 16k bytes:  376.85 MByte/s Tx,  563.24 MByte/s Rx.
Packet size 32k bytes:  377.78 MByte/s Tx,  562.65 MByte/s Rx
  • Rxは5Gbps越えるが、Txが振るわない
    • TCP sessionを3並列で稼働させると、合計 9Gbps程度まで出ることを確認済み

RTL8127 / MTU 9000 (PCIe Gen4 x4スロット上・net/realtek-re-kmod v1101.00)

re0: flags=1008843<UP,BROADCAST,RUNNING,SIMPLEX,MULTICAST,LOWER_UP> metric 0 mtu 9000
        options=2418<VLAN_MTU,VLAN_HWTAGGING,LRO,WOL_MAGIC>
Packet size  1k bytes:  582.29 MByte/s Tx,  859.27 MByte/s Rx.
Packet size  2k bytes:  684.06 MByte/s Tx,  943.62 MByte/s Rx.
Packet size  4k bytes:  1006.32 MByte/s Tx,  949.19 MByte/s Rx.
Packet size  8k bytes:  986.54 MByte/s Tx,  965.99 MByte/s Rx.
Packet size 16k bytes:  973.88 MByte/s Tx,  973.33 MByte/s Rx.
Packet size 32k bytes:  973.65 MByte/s Tx,  943.99 MByte/s Rx.
  • 4k/packet辺りから凡そ10Gbpsに届いている

RTL8127 / MTU 1500 (PCIe Gen4 x4スロット上・net/realtek-re-kmod v1101.00)

re0: flags=1008843<UP,BROADCAST,RUNNING,SIMPLEX,MULTICAST,LOWER_UP> metric 0 mtu 1500
        options=2418<VLAN_MTU,VLAN_HWTAGGING,LRO,WOL_MAGIC>
Packet size  1k bytes:  551.69 MByte/s Tx,  682.98 MByte/s Rx.
Packet size  2k bytes:  581.93 MByte/s Tx,  801.25 MByte/s Rx.
Packet size  4k bytes:  700.99 MByte/s Tx,  881.42 MByte/s Rx.
Packet size  8k bytes:  702.18 MByte/s Tx,  876.36 MByte/s Rx.
Packet size 16k bytes:  716.90 MByte/s Tx,  895.89 MByte/s Rx.
Packet size 32k bytes:  736.95 MByte/s Tx,  812.71 MByte/s Rx.
  • MTU 9000に比べると伸びが悪い (特にTx側)
    • 割り込み数増大に伴い、driver stack込みのレイテンシが足かせになっている?
    • Driver errataによりChecksum offloading disable設定なので本来期待されるレイテンシよりも遅くなっている可能性有り (今後の改良に期待)
    • OpenBSD driverからの移植版も有る模様
      • base treeへのマージは、ライセンス的にこちらが有望か?
      • 現段階では性能が微妙な模様

RTL8127 / MTU 9000 (PCIe Gen4 x4スロット上・https://github.com/erikarn/if_rge_freebsd/commit/61fd3bba90ff0d8e1fd58bb228f23197e7871a31)

rge0: flags=1008843<UP,BROADCAST,RUNNING,SIMPLEX,MULTICAST,LOWER_UP> metric 0 mtu 9000
        options=9b<RXCSUM,TXCSUM,VLAN_MTU,VLAN_HWTAGGING,VLAN_HWCSUM>
Packet size  1k bytes:  275.33 MByte/s Tx,  594.32 MByte/s Rx.
Packet size  2k bytes:  569.23 MByte/s Tx,  651.66 MByte/s Rx.
Packet size  4k bytes:  894.56 MByte/s Tx,  653.71 MByte/s Rx.
Packet size  8k bytes:  910.59 MByte/s Tx,  668.27 MByte/s Rx.
Packet size 16k bytes:  904.57 MByte/s Tx,  671.19 MByte/s Rx.
Packet size 32k bytes:  879.12 MByte/s Tx,  681.65 MByte/s Rx.
  • OpenBSD rge ドライバの移植版
    • パケットサイズを大きくしても、Rx性能が伸びない
    • Tx性能の初動が net/realtek-re-kmodの半分程度しかない
    • 現時点では、WoL関連コードがコメントアウトされており、WoL待機状態に入らない
rge0: flags=1008843<UP,BROADCAST,RUNNING,SIMPLEX,MULTICAST,LOWER_UP> metric 0 mtu 9000
        options=98<VLAN_MTU,VLAN_HWTAGGING,VLAN_HWCSUM>
Packet size  1k bytes:  260.73 MByte/s Tx,  381.80 MByte/s Rx.
Packet size  2k bytes:  583.25 MByte/s Tx,  360.11 MByte/s Rx.
Packet size  4k bytes:  908.44 MByte/s Tx,  562.28 MByte/s Rx.
Packet size  8k bytes:  907.21 MByte/s Tx,  678.20 MByte/s Rx.
Packet size 16k bytes:  906.04 MByte/s Tx,  696.84 MByte/s Rx.
Packet size 32k bytes:  886.88 MByte/s Tx,  607.84 MByte/s Rx.
  • TXCSUM OFFでも、性能はあまり変わらない
  • RXCSUM OFFでは、小パケット性能が3割程度低下する
    • 大パケットでのトップスピードはそれほど変わらない

カテゴリー: Admin | Emacs | EPICS | Fortran | FreeBSD | GCC | hgsubversion | IPv6 | KEKB | LHC | Lisp | LLVM | MADX | Ryzen | SAD | samba | tDiary | unix | WWW | YaSAI | お仕事 | イベント | 出張 | 宴会 | 数学 | 艦これ | 買いもの | 追記 | 雑記