XML Converter for Tab-separated Text Version 1.0.2 について千葉庄寿 (ちばしょうじゅ, CHIBA Shoju) 麗澤大学外国語学部 (College of Foreign Languages, Reitaku University) e-mail: schiba@reitaku-u.ac.jp Note: This file is encoded with UTF-8. このファイルは UTF-8 でエンコードされています。 =======目次====== 　・この文書の更新履歴　・概要　・History 　・開発・動作環境　・インストール方法　・アンインストール方法　・最新情報の入手　・現バージョンでの動作制限と今後の開発予定　・利用上の注意　・謝辞 ======= 【この文書の更新履歴】 2003/03/12 HTML 出力のフォントの指定方法の説明を追加 2003/03/08 UTF-16 big endian のバグを修正し，記述を追加 2003/03/03 初版作成 (2003/03/04 更新) 【概要】 XML Converter for Tab-separated Text Version 1.0 (以下 XML Converter と略記することがあります) は，タブ Tab で区切られた Unicode テキストファイルをもとに，XML によって構造化されたデータを作成するコンバータです。テキストファイルは Unicode 形式 (UTF-8, UTF-16, UTF-16 big endian のいずれか) で保存します。 XML Converter は言語調査用のテキストコーパスを作成することに主眼を置いているため，以下のような特定の構造の XML データのみを出力できます。 body 要素 ( ... = 本文を表します)： 1つの div 要素を含みます div 要素 (

...

= セクションを表します)： 1つ以上の p 要素を含みます p 要素 (

...

= 段落を表します)： 1つ以上の s 要素を含みます s 要素 ( ~~...~~ = 文を表します)： 1つ以上の w 要素を含みます w 要素 (... = 単語を表します)：単語となるテキストを含みます　　※ w 要素には，変換元テキストに記述された情報が属性として入ります。　　　例: が　　　上記の例では，w 要素の kana 属性の値は「ga」, gramm 属性の値は　　　「格助詞」となります。例えば，Excel で作成し，Unicode Text 形式で保存した以下のようなタブ区切りのテキストがあったとします (テキストは International Phonetic Assiciation (1999) Handbook of the International Phonetic Association: A Guide to the Use of International Phonetic Alphabet. Cambridge: Cambridge University Press. の日本語の例を抜粋引用しています)。Excel のワークシートを Unicode Text として変換すると，UTF-16 形式で各セルの内容をタブ Tab で区切ったテキストファイルができます。(音声表記の一部が文字化けしているかもしれませんが，その文字をもつフォントを利用すれば正しく表示されます。) ====テキスト開始 (sample_ja.txt)==== text kana phon lemm gramm ある aru áɽu ある連体詞時 toki toki 時副詞的名詞， "," ，読点北風 Kitakaze kitakaze 北風普通名詞と to to と格助詞太陽 Taiyō táijoː 太陽普通名詞が ga ga が格助詞力 chikara tˢikaɽa 力普通名詞くらべ kurabe kúɽabe くらべ普通名詞を o o を格助詞し shi si する "動詞,サ変動詞,基本連用形" ました mashita másita ます "動詞性接尾辞,動詞性接尾辞ま,タ形" 。 . 。句点旅人 tabibito tabibito 旅人普通名詞の no no の接続助詞外套 gaitō gaitoː 外套普通名詞を o o を格助詞脱が nuga nugá 脱ぐ "動詞,子音動詞ガ行,未然形" せた seta seta せる "動詞性接尾辞,母音動詞,タ形" 方 hō hóː 方副詞的名詞が ga ga が格助詞勝ち kachi katˢí 勝ち普通名詞と to to と格助詞いう yū juː いう "動詞,子音動詞ワ行,基本形" こと koto kotó こと形式名詞に ni ni に格助詞決めて kimete kimete 決める "動詞,母音動詞,タ系連用テ形" ， "," ，読点まず mazu mázu まず副詞北風 Kitakaze kitakaze 北風普通名詞から kara から格助詞始め hajime hazime 始める "動詞,母音動詞,基本連用形" ました mashita másita ます "動詞性接尾辞,動詞性接尾辞ま,タ形" 。 . 。句点 ====テキスト終了==== このテキストは，一番左の列に元の単語を置き (縦にたどると元のテキストを復元できます)，その右にかな，音声表記，基本形，文法情報をそれぞれタブで区切って配置したものです。また，このテキストの文と文の切れ目 (最初の句点。の後) に空行を入れてあることに気をつけてください。XML Converter は空行ひとつを文の区切り，空行二つを段落の区切りと判断します。(空行は， Excel で Unicode Text として保存した後でも，Unicode 対応のエディタで開くなどして編集することができます)。このテキストを XML Converter で XML 形式の構造化されたデータに変換した結果は以下のようになります。 ====データ開始 (sample_ja.xml)====

~~ある時，北風と太陽が力くらべをしました。~~ 旅人の外套を脱がせた方が勝ちということに決めて，まず北風から始めました。

====データ終了==== 変換された XML データは XML の構成規則に沿った Well-formed XML (整形式 XML) ですので，そのまま Internet Explorer で表示したり，他の XML アプリケーションで処理することができます。この変換例では変換先のファイルのエンコードを UTF-8 に, また w 要素の内容 ( とに囲まれたテキスト) に変換元の一番最初の項目 (Main text is at the column "1") を指定しています。どの列を w 要素の内容にするかは，オプションで自由に設定することができます。 XML Converter は文や段落の区切りを解釈して ~~...~~ (および

...

) のタグを挿入します。また，項目が空の場合はその項目は出力しません。また，先の sample_ja.txt をよく見ると，"," や "動詞,子音動詞ワ行,基本形" のように，タブ区切りの項目が前後に引用符を伴っている場合があります (これらの引用符は，CSV 形式と呼ばれるテキスト形式のデータの出力に似ていますが，Excel が自動的に挿入したものです)。XML Converter は各項目の最初と最後に加えられた引用符を削除して XML 化しますので，kana="","" や kana="","" (引用符の実体参照) といったおかしな出力を避けることができます (前者は XML のきまりに違反します)。なお，項目の前後でない位置の引用符は実体参照形式 (") に変換されます)。 XML 形式で作成したデータは，XML 形式を解する検索ツールなどを使って効率よく分析することができます。例えば，Excel では，sample_ja.txt のようなデータを作成した場合，検索をしても，ヒットした単語を含む文がすぐには見ることができませんが，Simple XML Data Viewer for Field Linguists のようなツールを使うことで，検索してヒットした単語とその単語を含む文をすぐにリストすることができるようになります。変換元のテキスト編集の際の注意点を以下に挙げます。・テキストの1行目には，必ず各列の内容を表す見出しテキストを入れます。　このテキストはそのまま w 要素の属性の値として使われます。XML 1.0 で　は属性名にスペースを使うことはできませんので，スペースは入れないよう　にしてください。・1行目の見出しは，必ず全ての列についてつけてください。データがあるの　に見出しがないテキストは変換できません (エラーになります)。・文と文の間は1行あけ，段落と段落の間は2行空けてください。変換先の XML データについて，特に注意すべき点を挙げます。・&, ', <, >, " の5つの記号は XML の中で特殊な意味をもちます。XML Converter 　で変換すると，テキスト中にある上記の記号はそれぞれ　　　　&　　& 　　　　'　　' 　　　　<　　< 　　　　>　　> 　　　　"　　" 　という代替表記 (実体参照) に変換されます。・タブで区切られた項目の最初と最後に出てくる " は変換先 XML データでは　削除されます。【History】 2003/03/12 バージョン 1.0.2 公開・HTML のテーブルにヘッダテキストをclass属性の値として追加 2003/03/08 バージョン 1.0.1 公開・UTF-16 big endian による出力のバグを修正 2003/03/03 バージョン 1.0 公開【開発・動作環境】 XML Converter は Microsoft Visual C# .NET で開発し，Windows2000 Professional Service Pack3 (CPU Pentium III 600Mhz, Memory 398MB), および Windows XP Professional Edition Service Pack 1 (CPU 1.0GHz, Memory 768MB) 上で動作を確認しています。 XML Converter の実行には Microsoft .NET Framework 1.0 の実行環境が必要です。.NET Framework は Windows 98, ME, NT, 2000, XP (Home & Professional) の各バージョンで利用できますが，Windows 95 およびそれ以前のバージョンでは利用できません。.NET Framework のインストールファイルは，以下の URI から無償でダウンロードできます：日本語: http://www.microsoft.com/japan/msdn/netframework/prodinfo/getdotnet.asp 英語: http://msdn.microsoft.com/netframework/downloads/howtoget.asp (上記 URI には実費で CD-ROM を入手するための情報もあります。)「.NET Framework 再頒布パッケージ」(ファイル名 dotnetredist.exe, 20.4MB) をダウンロードして実行すると.NET Framework をインストールするためのプログラムファイル dotnetfx.exe が生成されますので，dotnetfx.exe をダブルクリックしてインストールしてください。なお，.NET Framework 1.0 の不具合やセキュリティーの更新をおこなう Service Pack 2 (5.9MB) がリリースされていますので，.NET Framework のインストール後にインストールしておくことをおすすめします。以下の URI からダウンロードできます：日本語: http://www.microsoft.com/japan/msdn/netframework/downloads/sp2/download.asp 英語: http://msdn.microsoft.com/netframework/downloads/updates/sp/default.asp .NET Framework の Service Pack は，Microsoft が提供しているオンラインサービス Windows Update (URI: http://windowsupdate. microsoft.com/) を使ってもインストールできます。【重要】Windows 98, ME では動作を確認していません。XML Converter は Unicode 文字を処理するアプリケーションですので，Unicode の内部処理方式の異なる Windows 98 および Windows ME では，表示その他挙動がおかしくなる可能性があります。【インストール方法】 1. Microsoft .NET Framework をインストールします (【動作環境】を参照してください)。 2. 自己解凍式のZIPアーカイブ InstXMLconv.exe をダウンロードします。 3. アーカイブをダブルクリックし，解凍先のフォルダを指定します。 4. 解凍が完了すると，解凍先のフォルダに8種類のファイルが置かれます。 XMLConverter.exe ...実行ファイル XMLConverter.txt ...このファイル (日本語) readme.txt ... 簡単なレジュメ (英語) sample.txt ... 簡単なテキストサンプル (英語) sample.xml ... sample.txt の変換結果 (UTF-8 形式) sample_ja.txt ... テキストサンプル (日本語) sample_ja.xml ... sample_ja.txt の変換結果 (UTF-8 形式) sample_ja.htm ... HTML 版の変換結果 (UTF-8 形式, 以下の「現バージョンでの動作制限と今後の開発予定」を参照してください) XMLConverter.exe をダブルクリックするとアプリケーションが起動します。【アンインストール方法】レジストリは使用しておりませんので，実行ファイル XMLConverter.exe を削除するだけでアンインストールが完了します。【最新情報の入手】 XMLConverter.exe の最新情報および最新の実行ファイルを含む自己解凍式ファイルは http://www.fl.reitaku-u.ac.jp/~schiba/tools/ で入手できます。【現バージョンでの動作制限と今後の開発予定】現バージョンでは，おまけの機能として，データを HTML 形式で出力することができます (サンプルを sample_ja.htm としてインストール用アーカイブに収録しています)。タブ区切りのテキストを表として出力するだけでなく，選択した列から文を生成し，文番号や各単語に記述されたハイパーリンクから，対応する表の位置へジャンプし，細かな情報を見ることができます。　なお，スタイルシート (CSS) というしくみを使い，表の列ごとフォントを設定できます。HTML 出力のヘッダ部分 ( とに囲まれた部分) にあるの /* と */ にはさまれた部分を編集すると，フォントを指定することができます。.phon を，ドット . + フォントを指定したい列のヘッダ名に変更し (ただし，main text に選んだ列は .text とします)，さらにその行の行頭と行末の /* および */ をそれぞれ削除すると，Lucida Sans Unicode (または Arial Unicode MS) がインストールされているパソコン上のブラウザでは，指定したフォントでテキストが表示されます。例えば，は，phonetic というヘッダ名の列のフォントを変更します。　さらに，フォントの指定は，列の名前でいくらでも追加することができます。例えば，とカンマを挟んで列名を列挙したり，のように，列によって別のフォントを設定したりできます。　スタイルシートについて，詳しくは HTML や CSS の参考書等を参照してください。現バージョンでは，以下のような注意点があります。・変換元となるテキストファイルの改行記号は Windows (DOS) 形式 (CR + 　LF) のみをサポートしています。結果も Windows 形式で出力されます。・変換元となるテキストファイルのエンコードは Unicode (UTF-8, UTF-16, 　UTF-16 big endian) 形式のみをサポートしています。Shift JIS などで作　成したデータを用いる場合は，一旦 Unicode 対応テキストエディタなどで　データを Unicode の形式に保存しなおしてから XML Converter で変換して　ください。・変換先の XML データのエンコードには，UTF-8, UTF-16, UTF-16 big endian 　を選べます。それぞれ，XML データ冒頭に以下のような XML 宣言を記述し　ます。　　　UTF-8: 　　　UTF-16 & UTF-16 big endian: ・[View] ボタンを使ってデータをテーブル形式で閲覧することができます。　テーブルは列のソートなどができますが，閲覧のみでデータの修正はできま　せん。また，データを選択してコピーする機能もありません。(データは標　準の設定では Arial Unicode MS, 10ポイントで表示されます。フォント設　定は [View] メニューの [Font] から変更できます。) ・w 要素の内容 ( とで囲まれた部分) にくる列の番号は，　現バージョンでは 1 から 10 までからしか選択できません (自分で値を入　力しても変更できませんので注意)。今後の開発で，番号を直接入れられる　ようにするなどしたいと思います。・XML Converter はテキストの1行目をみて変換される XML データの w 要素　に入る属性の名前を決めますので，属性名は自由に決められます (ただし　XML 1.0 では属性名にスペースを使うことはできませんので注意してくださ　い)。しかし，要素名 (body, div, p, s, w) を変更することはできません。　(汎用のツールではなく，あくまで言語調査用のテキストコーパスを作成する　ことに主眼を置いているためです。) ・現バージョンでは複数の div 要素からなる XML データは出力できません。　しかし，div 要素は 1つでなければいけないわけではなく，例えば XML 　Converter で作成された複数の XML データをひとつのコーパスデータにま　とめる際には，それぞれの XML データの div 要素をひとつの body 内に入　れることができます。【利用上の注意】 XML Converter for Tab-separated Text はフリーソフトです。このソフトウエアの再配布は自由に行ってかまいませんが，その際は実行ファイルとともに，同包されているファイル (XMLConverter.txt [このファイル] を含む) を一緒に配布してください。なお，最新のバージョンをホームページ　URI: http://www.fl.reitaku-u.ac.jp/~schiba/tools/ からダウンロードして利用することをおすすめします。ソフトウエアの著作権は千葉庄寿 (ちばしょうじゅ) にあります。ソフトウエアの不具合や，このドキュメントの間違いなどを発見されましたら，制作者千葉 (e-mail: schiba@reitaku-u.ac.jp) までお知らせいただけると幸いです。なお，XML Converter を利用したことにより発生した損害への責任は一切負いかねますのでご了承ください。【謝辞】このソフトウエア (XML Converter for Tab-separated Text Version 1.0) は文部省科学研究費補助金特定領域研究(A) 「環太平洋の『消滅に瀕した言語』にかんする緊急調査研究」計画研究「情報処理による調査研究支援」 (課題番号 12039213; 研究代表者松村一登 (東京大学大学院人文社会系研究科)) の研究成果の一環として開発されました。記して感謝いたします。