UniGrep: Unicode-compliant Grep Version 1.1 について

千葉 庄寿 (ちば しょうじゅ, CHIBA Shoju)
麗澤大学外国語学部 (College of Foreign Languages, Reitaku University)
e-mail: schiba@reitaku-u.ac.jp

Note: This file is encoded with UTF-8. このファイルは UTF-8 でエンコ
ードされています。

=======目次======
　・この文書の更新履歴
　・概要
　・History
　・開発・動作環境
　・インストール方法
　・アンインストール方法
　・最新情報の入手
　・現バージョンでの動作制限と今後の開発予定
　・利用上の注意
　・謝辞
=======

【この文書の更新履歴】

2003/03/10 BOM の処理を修正し，説明を追加
2003/03/06 バージョン 1.1 の機能の説明を追加
2003/03/03 初版作成 (2003/03/04 更新)

【概要】

UniGrep: Unicode-compliant Grep (以下 UniGrep と略記することがあります)
は，Unicode (UTF-8, UTF-16, UTF-16 big endian) で保存されたテキストファ
イルについてテキスト検索を行い，マッチした行を抽出します。マッチした箇
所は太字で表示され，検索終了後，マッチした個数とマッチした行数が表示さ
れます。(BOM がないテキストは，UTF-8 と解釈されます。Shift JIS は扱えま
せんが，ASCII テキストはそのまま使えます。)

抽出結果は検索情報を入れた (もしくは入れない) Unicode テキスト(UTF-8 形
式のみ) としてファイルに保存することができます。検索情報としては，検索
日時，検索対象ファイル，マッチした個数とマッチした行数が検索結果の後に
付加されます。

単純な文字列検索のほか，大文字・小文字の無視した検索，正規表現を利用し
た検索のオプションが利用できます。また，マッチした行の番号を表示させる
ことができます。検索結果のテキストのフォントも自由に変えられます。

[NEW] バージョン 1.1 より，数文字参照 Numeric Character Reference を解
釈し，対応する文字列に変換して検索する機能を取り入れました。文字参照は

(1) &# + 10進数 + ; (例： &#97; は "a" に対応します)
(2) &#x + 16進数 + ; (例： &#x61; は "a" に対応します)
    ※ &#x0061; のようにゼロをはさむこともできます。また，
    16進数値の A-F は大文字・小文字どちらでもかまいません
    (例： &#x304B; 「か」 は &#x304b; と書いても同じです)。

の２種類の記法をサポートします (\97, \x61, \x{61} や \u0061 のような記
法には対応していません)。

【History】

2003/03/10	BOM のないファイルの処理を修正 (BOM のないファイルは UTF-8 として処理しますので，ASCII テキストはそのまま利用できます。)
2003/03/06	バージョン 1.1 公開
2003/03/03	バージョン 1.0 公開

【開発・動作環境】

UniGrep は Microsoft Visual C#  .NET で開発
し，Windows2000 Professional Service Pack3 (CPU Pentium III 600Mhz, 
Memory 398MB), および Windows XP Professional Edition Service Pack 1 
(CPU 1.0GHz, Memory 768MB) 上で動作を確認しています。

UniGrep の実行には Microsoft .NET Framework 
1.0 の実行環境が必要です。.NET Framework は Windows 98, ME, NT, 2000, 
XP (Home & Professional) の各バージョンで利用できますが，Windows 95 お
よびそれ以前のバージョンでは利用できません。.NET Framework のインストー
ルファイルは，以下の URI から無償でダウンロードできます：

日本語: http://www.microsoft.com/japan/msdn/netframework/prodinfo/getdotnet.asp
英語: http://msdn.microsoft.com/netframework/downloads/howtoget.asp

(上記 URI には実費で CD-ROM を入手するための情報もあります。)「.NET 
Framework 再頒布パッケージ」(ファイル名 dotnetredist.exe, 20.4MB) 
をダウンロードして実行すると.NET Framework をインストールするためのプ
ログラムファイル dotnetfx.exe が生成されますので，dotnetfx.exe をダブ
ルクリックしてインストールしてください。

なお，.NET Framework 1.0 の不具合やセキュリティーの更新をおこなう Service 
Pack 2 (5.9MB) がリリースされていますので，.NET Framework のインストール後にイ
ンストールしておくことをおすすめします。以下の URI からダウンロードで
きます：

日本語: http://www.microsoft.com/japan/msdn/netframework/downloads/sp2/download.asp
英語: http://msdn.microsoft.com/netframework/downloads/updates/sp/default.asp

.NET Framework の Service Pack は，Microsoft が提供しているオンライン
サービス Windows Update (URI: http://windowsupdate. microsoft.com/) を
使ってもインストールできます。

【重要】Windows 98, ME では動作を確認していません。UniGrep は Unicode 
文字を表示・処理するアプリケーションですので，処理方式の異なる Windows 
98 および Windows ME では，表示その他挙動がおかしくなる可能性があります。

【インストール方法】

1. Microsoft .NET Framework をインストールします (【動作環境】を参照して
ください)。
2. 自己解凍式のZIPアーカイブ InstUniGrep.exe をダウンロードします。
3. アーカイブをダブルクリックし，解凍先のフォルダを指定します。
4. 解凍が完了すると，解凍先のフォルダに3種類のファイルが置かれます。

	UniGrep.exe ...実行ファイル
	UniGrep.txt ...このファイル (日本語)
	readme.txt ... 簡単なレジュメ (英語)

UniGrep.exe をダブルクリックするとアプリケーションが起動します。

【アンインストール方法】

レジストリは使用しておりませんので，実行ファイル UniGrep.exe を削
除するだけでアンインストールが完了します。

【最新情報の入手】

UniGrep の最新情報および最新の実行ファイルを含む自己解凍式
ファイルは

http://www.fl.reitaku-u.ac.jp/~schiba/tools/

で入手できます。

【現バージョンでの動作制限と今後の開発予定】

・検索元のファイルは，UTF-8, UTF-16, UTF-16 big endian のみをサポートし
　ます。UTF-16 と UTF-16 big endian は BOM が必要です。また，UTF-8 は
　BOM はあってもなくともかまいません (従って，BOM なしの UTF-8 として
　ASCII テキストも利用できます。しかし Shift JIS には対応していません)。
・検索結果を保存するテキストファイルのエンコード形式は UTF-8 のみです。
・検索結果を保存すると，保存結果が検索結果を表示するテキストボックスに
　も表示されます。従って，検索情報つきで保存した場合は検索情報もテキス
　トボックスに表示されてしまいます。
・検索結果では，マッチした箇所が太字で表示されています。検索結果をテキ
　ストファイルとして保存すると，この情報が消えてしまいますので，注意し
　て下さい。以後のバージョンで，何らかの印をつけるよう改良したいと思い
　ます。
・検索結果をマウスで選択し，マウスの右クリックでコピーすることができま
　す。ショートカットとして Ctrl + C も使えます。
・検索結果に行番号を付加する場合，行番号は整数で表示され，行番号とテキ
　ストとの間にはタブ Tab が入ります。行番号は検索するファイルの行数に合
　わせて 001, 002, といった表示形式をとったほうが再加工に便利かもしれま
　せんので，検討します。

【利用上の注意】

UniGrep: Unicode-compliant Grep はフリーソフトです。このソフトウエア
の再配布は自由に行ってかまいませんが，その際は実行ファイルとともに，
同包されているファイル (UniGrep.txt [このファイル] を含む) を一緒に
配布してください。なお，最新のバージョンをホームページ
　URI: http://www.fl.reitaku-u.ac.jp/~schiba/tools/
からダウンロードして利用することをおすすめします。

ソフトウエアの著作権は千葉庄寿 (ちばしょうじゅ) にあります。ソフトウエ
アの不具合や，このドキュメントの間違いなどを発見されましたら，制作者
千葉 (e-mail: schiba@reitaku-u.ac.jp) までお知らせいただけると幸いです。

なお，UniGrep を利用したことにより発生した損
害への責任は一切負いかねますのでご了承ください。

【謝辞】

このソフトウエア (UniGrep: Unicode-compliant Grep Version 1.1) は文部
省科学研究費補助金 特定領域研究(A) 「環太平洋の『消滅に瀕した言語』に
かんする緊急調査研究」 計画研究「情報処理による調査研究支援」 (課題番
号 12039213; 研究代表者 松村一登 (東京大学大学院人文社会系研究科)) の
研究成果の一環として開発されました。記して感謝いたします。