トップ «前の日記(2024-07-05) 最新 次の日記(2024-07-22)» 編集

Orz日記 by Akio Morita

ToDo:

  • 15 SAD Fit[]回りの障害事例の解析
  • 10 smart pointer版PEGクラスの再実装(Left Recursionまわり)
2006|03|04|05|06|07|08|09|10|11|12|
2007|01|02|03|04|06|09|10|11|12|
2008|01|02|03|04|05|06|07|08|09|10|11|12|
2009|01|02|03|04|05|06|07|08|09|10|11|12|
2010|01|02|03|04|05|06|07|08|09|10|11|12|
2011|01|02|03|04|05|06|07|08|09|10|11|12|
2012|01|02|03|04|05|07|08|09|10|11|12|
2013|01|03|04|05|06|07|08|09|10|11|12|
2014|01|02|03|04|05|06|07|08|09|10|11|12|
2015|01|02|03|04|06|07|08|10|12|
2016|01|02|03|05|06|08|10|11|
2017|01|02|03|04|05|06|07|09|10|11|12|
2018|01|02|03|04|06|07|08|09|10|11|12|
2019|01|03|04|05|07|08|09|10|11|12|
2020|01|02|03|04|05|06|07|08|09|10|11|12|
2021|01|02|03|04|05|06|07|08|09|10|11|12|
2022|01|02|03|04|05|06|07|08|09|10|11|12|
2023|01|02|03|04|05|06|07|08|09|10|11|12|
2024|01|02|03|04|05|06|07|08|09|10|11|

2024-07-09 [長年日記]

_ [FreeBSD]Microsoft UCS互換運用の話

  • Samba - unix charsetにiconvでサポートされるunix側のエンコーディングを設定出来る
    • smb4.confunix charset先日追加したUTF-8-MSを指定することで、例えばパス中の「〜」がWindows側からはU+FF5E(FULLWIDTH TILDE)・FreeBSD側からはWAVE DASH(U+301C)で運用出きることを確認
  • msdosfs - lib/libkiconv/quirks.cにネタ帳(MS向けのUCSコードポイント置換表とエンコーディングの別名定義)があるので、ここを拡張すればいける? UTF-8サポートは全然別の場所だった
    • libkiconvが変換テーブルのロードに使っているAPIは、2byte文字前提ぽぃ(3byte文字サポートを有効にするマクロがあるようだが、メンテされてるのか?)
    • UTF-8はどうやってるのだろう…UCS/UTF系だけ専用モジュール(sys/libkern/iconv_ucs.c)になっている模様
    • 保有している変換テーブルの公開は、モジュール初期化子iconv_ucs_initからiconv_addで登録する
      • 初期状態で、UTF-16BE -> UTF-8, UTF-8 -> UTF-16BEが公開されている
      • モジュール自体は、UTF-16LE・UCS-2LEをサポートしてる模様
    • 改造方針
      • sys/libkern/iconv_ucs.cを改造し、UTF-8-MSを実装する
      • UTF-8-MSをunicode_familyに登録し、専用フラグを付与する
      • iconv_ucs_initで UTF-16BE / UTF-8-MS間の変換マップを公開する
      • iconv_ucs_convに専用フラグ付きの際にUCS-4コードポイントの変換を差し込む
        • UTF-8のデコード後とUTF-8エンコード前の2ヶ所
        • 変換マップは、Citrus iconvの改造パッチから持ってくる
      • lib/libkiconv/quirks.cにquirksを追加し、UTF-8 locale時にlocal filesystem encodingにUTF-8-MSを指定する
  • ntfs(ports/sysutils/fusefs-ntfs)
    • use_utf8モード時は、UTF-16LEの内部コードとUTF-8の相互変換はlibntfs-3g/unistr.cに自前の実装を持っている
    • NTFSファイル名は、MicrosoftなUCSで符号化されているので、換字テーブルをunistr.cに持ち込むのが素直か?

実装完了〜

Linux/SambaなNASからのNFSマウントを除けば、MicrosoftなUCS符号位置のファイルは見ずに済むようになった


カテゴリー: Admin | Emacs | EPICS | Fortran | FreeBSD | GCC | hgsubversion | IPv6 | KEKB | LHC | Lisp | LLVM | MADX | Ryzen | SAD | samba | tDiary | unix | WWW | YaSAI | お仕事 | イベント | 出張 | 宴会 | 数学 | 艦これ | 買いもの | 追記 | 雑記