Simple XML Data Viewer for Field Linguists Version 0.1 について 千葉 庄寿 (ちば しょうじゅ, CHIBA Shoju) 麗澤大学外国語学部 (College of Foreign Languages, Reitaku University) e-mail: schiba@reitaku-u.ac.jp Note: This file is encoded with UTF-8. このファイルは UTF-8 でエンコ ードされています。 重要なお知らせ:このバージョンは安定版ではありません。実行の際に思わぬ バグやエラーが出る可能性があります。また,このバージョンの実行ファイル を使った分析は正しくないことがあります。ご利用の際はご注意下さい。また, 重要なバグが見つかりましたら制作者までお知らせいただけると幸いです。 =======目次======  ・この文書の更新履歴  ・概要  ・History  ・開発・動作環境  ・インストール方法  ・アンインストール方法  ・最新情報の入手  ・現バージョンでの動作制限と今後の開発予定  ・利用上の注意  ・謝辞 ======= 【この文書の更新履歴】 2003/03/03 初版作成 (2003/03/04 更新) 【概要】 Simple XML Data Viewer for Field Linguists (以後 XML Viewer と略記する ことがあります) は,消滅の危機に瀕した言語など,現地調査で収集された言 語のテキストを電子化し,積極的に利用するための支援ツールとして考案され ました。Unicode でサポートされた多様な文字を使って作成されたテキストを XML を使って構造化し,構造を使った検索とデータの閲覧ができるようになっ ています。 XML Viewer では,指定された XML データを開き,XML の生のデータとタグを 除去したデータをそれぞれ閲覧できます。また,指定したデータについて,テ キスト検索,および検索対象のデータの種類 (タグや属性,データの場所など) を絞った検索をおこない,マッチした単語を含む文を grep のように表示する ことができます。 XML Converter は言語調査用のテキストコーパスを作成することに主眼を置い ているため,以下のような特定の構造の XML データでのみ正しく表示,検索 ができます。 body 要素 ( ... = 本文を表します): 1つ以上の div 要素を含みます div 要素 (
...
= セクションを表します): 1つ以上の p 要素を含みます p 要素 (

...

= 段落を表します): 1つ以上の s 要素を含みます s 要素 ( ... = 文を表します): 1つ以上の w 要素を含みます w 要素 (... = 単語を表します): 単語となるテキストを含みます   ※ w 要素には,変換元テキストに記述された情報が属性として入ります。     例:    上記の例では,w 要素の kana 属性の値は「ga」, gramm 属性の値は    「格助詞」となります。    w 要素に入る属性名は (XML の規則に合致する,スペースを含まないテ    キストであれば) 何でもかまいませんが,現バージョンでは,以下の属    性名のみが XML の構造にマッチする検索に対応しています:      属性名 意味      lemm 基本形 (LEMMAaic) 情報      gramm 文法 (GRAMMatical) 情報      phon 音声転写 (PHONetic) 情報    lemma ではなく,lemm, grammar ではなく gramm, phonetic ではなく    phon ですのでご注意下さい。    これ以外の属性名は,他の属性と一緒に検索することができますが,ひ    とつの属性だけを取り出して検索することはできません。 この形式の XML データを作成するツールとして,XML Converter for Tab-separated Text があります (タブ形式で区切られたテキストデータから XML を生成します)。 詳細はソフトウエアのホームページ    http://www.fl.reitaku-u.ac.jp/~schiba/tools/ をご覧下さい。 【History】 2003/03/03 バージョン 0.1 公開 【開発・動作環境】 XML Viewer は Microsoft Visual C# .NET で開発 し,Windows2000 Professional Service Pack3 (CPU Pentium III 600Mhz, Memory 398MB), および Windows XP Professional Edition Service Pack 1 (CPU 1.0GHz, Memory 768MB) 上で動作を確認しています。 XML Viewer の実行には Microsoft .NET Framework 1.0 の実行環境が必要です。.NET Framework は Windows 98, ME, NT, 2000, XP (Home & Professional) の各バージョンで利用できますが,Windows 95 お よびそれ以前のバージョンでは利用できません。.NET Framework のインストー ルファイルは,以下の URI から無償でダウンロードできます: 日本語: http://www.microsoft.com/japan/msdn/netframework/prodinfo/getdotnet.asp 英語: http://msdn.microsoft.com/netframework/downloads/howtoget.asp (上記 URI には実費で CD-ROM を入手するための情報もあります。)「.NET Framework 再頒布パッケージ」(ファイル名 dotnetredist.exe, 20.4MB) をダウンロードして実行すると.NET Framework をインストールするためのプ ログラムファイル dotnetfx.exe が生成されますので,dotnetfx.exe をダブ ルクリックしてインストールしてください。 なお,.NET Framework 1.0 の不具合やセキュリティーの更新をおこなう Service Pack 2 (5.9MB) がリリースされていますので,.NET Framework のインストール後にイ ンストールしておくことをおすすめします。以下の URI からダウンロードで きます: 日本語: http://www.microsoft.com/japan/msdn/netframework/downloads/sp2/download.asp 英語: http://msdn.microsoft.com/netframework/downloads/updates/sp/default.asp .NET Framework の Service Pack は,Microsoft が提供しているオンライン サービス Windows Update (URI: http://windowsupdate. microsoft.com/) を 使ってもインストールできます。 【重要】Windows 98, ME では動作を確認していません。XML Viewer は Unicode 文字を表示・処理するアプリケーションですので,処理方式の異なる Windows 98 および Windows ME では,表示その他挙動がおかしくなる可能性があります。 【インストール方法】 1. Microsoft .NET Framework をインストールします (【動作環境】を参照して ください)。 2. 自己解凍式のZIPアーカイブ InstXMLView.exe をダウンロードします。 3. アーカイブをダブルクリックし,解凍先のフォルダを指定します。 4. 解凍が完了すると,解凍先のフォルダに3種類のファイルが置かれます。 XMLViewer01.exe ...実行ファイル XMLViewer01.txt ...このファイル (日本語) readme.txt ... 簡単なレジュメ (英語) XMLViewer01.exe をダブルクリックするとアプリケーションが起動します。 【アンインストール方法】 レジストリは使用しておりませんので,実行ファイル XMLViewer01.exe を削 除するだけでアンインストールが完了します。 【最新情報の入手】 XML Viewer の最新情報および最新の実行ファイルを含む自己解凍式 ファイルは http://www.fl.reitaku-u.ac.jp/~schiba/tools/ で入手できます。 【現バージョンでの動作制限と今後の開発予定】 ・ターゲットとなるファイルには, XML 形式以外の Unicode テキストも選ぶ  ことができます。この場合は XML の構造にマッチする検索機能は使えません  が通常のテキスト検索が行えます (正規表現の利用も可能です)。 ・データを検索する場合には,ファイルを選択した後 [View Data] ボタンで  ファイルを一旦読み込みます。ここで XML については整形式 well-formed  であるかのチェックをおこないます。XML としてデータを検索するときには,  必ず [Validate XML first] のチェックを有効にしておいてください (XML  の構造を使った検索ができるようになります)。 ・検索オプションには「大文字・小文字の違いを無視する (Ignore Case)」,  「正規表現を使う (Use RegEx [= Regular Expressions])」があります。  データ全体の検索,XML の構造にマッチする検索のいずれにも使えます。  (「文番号を表示する (Put Sentence No.)」は現在のところ未実装です。) ・データ全体の検索 ([Search from:] で whole document を選択した場合)  は,マッチした箇所のテキストが選択状態になります。[Search] ボタンの  下にある三角矢印ボタンで順次マッチ箇所を移動できます。 ・XML の構造にマッチする検索を [Search from:] で選択すると,マッチした  テキスト箇所を含む文全体が表示されます。マッチした部分の前後にはかぎ  括弧 <> がつきます。この検索は [Validate XML first] のチェックを有効  にし,整形式 XML を読み込んだ場合のみ可能です。 ・[Validate XML first] のチェックを有効にし,整形式 XML を読み込んだ場  合,Show グループボックスにある [without Tags] チェックを有効にして  [Refresh the View] ボタンを押し,(タグを除いた)テキスト情報だけを取り  出すことができます。この場合テキストは文ごとに改行して表示されます。  また,このモードにしてからも,検索は通常通り行うことができます。 ・検索結果を保存するテキストファイルは UTF-8 形式で保存されます。 ・[View] メニューの [Font] をクリックすると,検索閲覧結果を表示するテ  キストボックスのフォントを指定することができます。なお,検索文字列を  入れるテキスト入力欄についてはさまざまな文字を入力することを想定し,  Arial Unicode MS で固定してあります。 現在のバージョンでの利用上の制限および注意事項を挙げておきます。 ・検索でマッチした行番号を表示する Put Sentence No. は実装されていませ  ん。 ・検索結果をさらに絞り込んで検索する機能は実装していません。 ・別のファイルを検索閲覧する場合には,ファイルを選択後,[View Data] ボ  タンを押し,データを新たに読み込む必要があります。 ・日本語のように単語がスペースで区切られない言語のテキストでも,タグなし  出力時には単語間にスペースが出力されます。 ・現バージョンでは,XML の構造にマッチする検索を行う際に指定できる w  要素の属性名は,以下の2つに制限されています:      属性名 意味 (もちろん他の意味としても利用できます)      lemm 基本形 (LEMMAaic) 情報      gramm 文法 (GRAMMatical) 情報      phon 音声転写 (PHONetic) 情報  属性名は lemma ではなく,lemm, grammar ではなく gramm, phonetic では  なく phon ですのでご注意下さい。これ以外の属性名は,他の属性と一緒に  属性名からの検索に利用することができますが,ひとつの属性だけを取り出  して検索することはできません。(今後のバージョンで,属性名のリストを自  動検出するなど,仕様を検討したいと思います。) ・現バージョンでは,属性の検索は w タグのみに限られます。s タグなどに  記述された属性は検索の際には無視されます。 いくつかバグが確認されており,現在修正中です。 ・テキストボックスに表示されるテキストおよびメニューから保存したテキス  トに改行が2重に挿入されてしまいます。 ・[Search from:] の検索範囲を何度も修正すると,出力がおかしくなること  があります。この場合は再度 [View Data] を行うか,Show グループボック  スの [Refresh the View] ボタンを押してデータを更新してください。 ・[Search from:] で XML の構造にマッチする検索を行った後,再度データ全  体にマッチする検索 (whole document) を行うことができません。こちらも  データを [View Data] ないし [Refresh the View] ボタンで更新してくだ  さい。 ・[View Data] ボタンを押して XML データを整形式として読み込む際に,"  などの実体参照を展開してしまうので,XML データが不正になってしまい,  エラーが出ることがあります。 【利用上の注意】 Simple XML Data Viewer for Field Linguists はフリーソフトです。このソフトウエア の再配布は自由に行ってかまいませんが,その際は実行ファイルとともに, 同包されているファイル (XMLViewer01.txt [このファイル] を含む) を一緒に 配布してください。なお,最新のバージョンをホームページ  URI: http://www.fl.reitaku-u.ac.jp/~schiba/tools/ からダウンロードして利用することをおすすめします。 ソフトウエアの著作権は千葉庄寿 (ちばしょうじゅ) にあります。ソフトウエ アの不具合や,このドキュメントの間違いなどを発見されましたら,制作者 千葉 (e-mail: schiba@reitaku-u.ac.jp) までお知らせいただけると幸いです。 なお,XML Viewer を利用したことにより発生した損 害への責任は一切負いかねますのでご了承ください。 【謝辞】 このソフトウエア (Simple XML Data Viewer for Field Linguists Version 0.1) は文部 省科学研究費補助金 特定領域研究(A) 「環太平洋の『消滅に瀕した言語』に かんする緊急調査研究」 計画研究「情報処理による調査研究支援」 (課題番 号 12039213; 研究代表者 松村一登 (東京大学大学院人文社会系研究科)) の 研究成果の一環として開発されました。記して感謝いたします。