まず、OpenMPが使う POSIX Threadに関してだが、 Process fork cost >> Thread fork costの関係は成立している。しかし、NPARAモデルではビームライントラッキングにつき一回 Process forkを行う。それに対して、末端ルーチンでのOpenMP化は、エレメント毎に Thread forkが発生する。ここで、KEKB Latticeを想定すると QUADや DRIFTエレメントの数は 100〜1000のオーダー存在する。したがって、Thread fork costが 1000倍以上安くないとペイしないという結論にたどり着く。

したがって、OpenMP化する場合は、

ドライバー側で Thread forkする
エレメントサブルーチン側で、omp doな並列化を行う

必要がある。また、トラッキングルーチンが呼び出す関数には、再突入可能であることが求められる。相互作用計算や統計処理の前には、Thread間同期が必要(nowait 並列化の場合)となり、統計処理は reduction演算で実装する必要がある。注意が必要なのは、アパーチャー処理に伴う、粒子分布入れ替えは、 Thread間同期と排他制御が必要。

書き換え範囲は、かなり広いと思われる。やはり、branchを作って作業か？

[ツッコミを入れる]

2020-05-19

_ [FreeBSD]最近のports-current

Python3への移行とImageMagick7への移行が始まっているが色々問題あり

editor/emacs
- ImageMagick7へ移行したが、MAGICKオプション付きでも /usr/local/bin/emacs にlibMagick系がリンクされていない
- 少なくともImageMagick6時代はリンクされていた
- emacs側のconfigureがうまく行っていない？
graphics/inkscape
- ImageMagkck6からGraphicsMagickへの切り替えで、上記のeditor/emacsとの競合は解消した
- print/transfigに依存している
- graphics/xfigなどはtransfigの後継？のprint/fig2devに依存先が切り替わっており、競合する
- 試しに、RUN_DEPENDをprint/fig2devにしてビルドすると一部のSVGファイルの生成に失敗してpackageが作れない

手持ち環境の実行環境のPython2依存性の残りは...

devel/mercurial
devel/py-subversion
- devel/viewvc
- devel/cvs2svn

[ツッコミを入れる]

2021-05-19

_ [SAD]sort再実装の残作業

次に作るもの

sort済みlist containerへの1要素挿入 tfinsertsort
- 挿入元と出力がlist containerなのでインタプリタヒープ断片化の原因となり得るが、それを変更するには構築途上のreference container型を導入する必要がある
- ソースコンテナ内のNull[...]要素を展開する機能がある
  - テンポラリコンテナへのシーケンス展開エンジンが必要
~~整数配列へのインデックスソート tfsorti (tfsortsymbolstk実装用)~~(r6179にて実装 2021.05.20)
~~実数配列へのインデックスソート spsort (spkick実装用)~~(r6182にて実装 2021.05.20)
Intersection/Complementの再実装
- 現行実装には問題点あり
  - 3要素以上は、再帰呼び出しにて実装している (スタック消費)
  - Intersectionに関しては、サイズ最小のリストを種にすべき
  - 積集合・和集合の抽出に使う整列済みリストは、union_listで得られるリストコンテナを使っている (SADインタプリタヒープを消費・断片化している)
    - 再帰呼び出しでは、一時割り当てしたリストコンテナを再帰的に生産するので、ワーストケースのインタプリタヒープ消費は、種リストの長さNに対して $O(N^2)$ (再帰毎にリストが短くなるケースが最悪)
  - Intersection/Complementどちらの場合も、出力候補となるリストの長さは単調現象となるので、一時領域の再割り当てを行う必要は無い

性能に関しては、オリジナル実装では実数リスト等のケースで比較ルーチンがソートエンジン内に展開されているのに対して、qsort(3)等では関数呼び出しが必須となる点は不利だが、実数リストコンテナではインデックスソートではなく、出力配列を直接スワップすることで間接参照コストを低減する最適化を行ったため、N = 2^24でのテストでは、整列・逆整列・準整列・ランダムの各パターンで、オリジナル実装よりも概ね良好な性能が得られている

ISO C++がテンプレート版sortがつかえれば、比較ルーチンのinline展開により更なる改善が得られると思われる

[ツッコミを入れる]

カテゴリー: Admin | Emacs | EPICS | Fortran | FreeBSD | GCC | hgsubversion | IPv6 | KEKB | LHC | Lisp | LLVM | MADX | Ryzen | SAD | samba | tDiary | unix | WWW | YaSAI | お仕事 | イベント | 出張 | 宴会 | 数学 | 艦これ | 買いもの | 追記 | 雑記