コマンド紹介 : uniutilsツール群 (Unicode関連コマンド)

Uniutilsは文字列にどんなUnicodeが使われるかなどを調べるツール群。
Unicode Utilities

コマンド構成
uniname, unidesc, unihist, ExplicateUTF8, utf8lookup, unireverse, unifuzz

Unicode文字を使っているときにコマンドラインからそれがどのような文字かを調べるツールがあると便利です。今回紹介するuniutilsはいくつかのコマンドで構成されていて、文字情報を調べたりカウントや文字並びを変えたりといったことができます。
Ubuntuではaptでインストールできます。


uniname

オフセット、バイトオフセット、hex、エンコード、グリフ、名前を調べる。

使用例

$ echo ゆたりんブログ | uniname

No LINES variable in environment so unable to determine lines per page.
Using default of 24.
character  byte       UTF-32   encoded as     glyph   name
        0          0  003086   E3 82 86       ゆ      HIRAGANA LETTER YU
        1          3  00305F   E3 81 9F       た      HIRAGANA LETTER TA
        2          6  00308A   E3 82 8A       り      HIRAGANA LETTER RI
        3          9  003093   E3 82 93       ん      HIRAGANA LETTER N
        4         12  0030D6   E3 83 96       ブ      KATAKANA LETTER BU
        5         15  0030ED   E3 83 AD       ロ      KATAKANA LETTER RO
        6         18  0030B0   E3 82 B0       グ      KATAKANA LETTER GU
        7         21  00000A   0A                     LINE FEED (LF)
 

unidesc

 文字列がどのような文字種で構成されているか調べる。

使用例

$ echo ゆたりんブログαβγ漢字←↓↑→ | unidesc

       0               3        Hiragana
       4               6        Katakana
       7               9        Greek and Coptic
      10              11        CJK Unified Ideographs
      12              16        Arrows

unihist

同じ文字の出現頻度を分析する。

使用例

$ echo あいいうううあああえおあaaa | unihist

          6.250        1        0x00000A
         18.750        3        0x000061        a
         31.250        5        0x003042        あ
         12.500        2        0x003044        い
         18.750        3        0x003046        う
          6.250        1        0x003048        え
          6.250        1        0x00304A        お

ExplicateUTF8

どういったコマンドか分からなかったので説明省略。

utf8lookup

hexからUnicode文字を調べる。

使用例

$ utf8lookup 3086

No LINES variable in environment so unable to determine lines per page.
Using default of 24.
UTF-32   name
003086  HIRAGANA LETTER YU

unireverse

使用例

文字列の文字の順序を反転させて表示する。
$ echo ゆたりんブログ | unireverse

グロブんりたゆ

unifuzz

ランダムにUnicode文字を出力する。 ソフトがUnicodeの取り扱いがちゃんとできているか確認用の出力として使える。

コメント

スポンサーリンク


このブログの人気の投稿

gnuplotでプロットなどの色をcolornameの指定で変更する

catコマンドの出力を行番号付きにするためのコマンドラインオプション(-n, -b)

Ubuntu Softwareが起動しないのでいろいろと調べてみる(Ubuntu 20.04.1 LTS)

gnuplot : グラフにグリッド線を描く方法(set grid)

gnuplot : プロット画像のサイズ指定について(set sizeとの違い)