コマンド紹介 : uniutilsツール群 (Unicode関連コマンド)
Uniutilsは文字列にどんなUnicodeが使われるかなどを調べるツール群。
Unicode Utilities
コマンド構成
uniname, unidesc, unihist, ExplicateUTF8, utf8lookup, unireverse, unifuzz
Unicode文字を使っているときにコマンドラインからそれがどのような文字かを調べるツールがあると便利です。今回紹介するuniutilsはいくつかのコマンドで構成されていて、文字情報を調べたりカウントや文字並びを変えたりといったことができます。
Ubuntuではaptでインストールできます。
Unicode Utilities
コマンド構成
uniname, unidesc, unihist, ExplicateUTF8, utf8lookup, unireverse, unifuzz
Unicode文字を使っているときにコマンドラインからそれがどのような文字かを調べるツールがあると便利です。今回紹介するuniutilsはいくつかのコマンドで構成されていて、文字情報を調べたりカウントや文字並びを変えたりといったことができます。
Ubuntuではaptでインストールできます。
uniname
オフセット、バイトオフセット、hex、エンコード、グリフ、名前を調べる。使用例
$ echo ゆたりんブログ | uniname
No LINES variable in environment so unable to determine lines per page.
Using default of 24.
character byte UTF-32 encoded as glyph name
0 0 003086 E3 82 86 ゆ HIRAGANA LETTER YU
1 3 00305F E3 81 9F た HIRAGANA LETTER TA
2 6 00308A E3 82 8A り HIRAGANA LETTER RI
3 9 003093 E3 82 93 ん HIRAGANA LETTER N
4 12 0030D6 E3 83 96 ブ KATAKANA LETTER BU
5 15 0030ED E3 83 AD ロ KATAKANA LETTER RO
6 18 0030B0 E3 82 B0 グ KATAKANA LETTER GU
7 21 00000A 0A LINE FEED (LF)
unidesc
文字列がどのような文字種で構成されているか調べる。使用例
$ echo ゆたりんブログαβγ漢字←↓↑→ | unidesc
0 3 Hiragana
4 6 Katakana
7 9 Greek and Coptic
10 11 CJK Unified Ideographs
12 16 Arrows
unihist
同じ文字の出現頻度を分析する。使用例
$ echo あいいうううあああえおあaaa | unihist
6.250 1 0x00000A
18.750 3 0x000061 a
31.250 5 0x003042 あ
12.500 2 0x003044 い
18.750 3 0x003046 う
6.250 1 0x003048 え
6.250 1 0x00304A お
ExplicateUTF8
どういったコマンドか分からなかったので説明省略。utf8lookup
hexからUnicode文字を調べる。使用例
$ utf8lookup 3086
No LINES variable in environment so unable to determine lines per page.
Using default of 24.
UTF-32 name
003086 HIRAGANA LETTER YU
unireverse
使用例
文字列の文字の順序を反転させて表示する。$ echo ゆたりんブログ | unireverse
グロブんりたゆ
コメント
コメントを投稿