XML Converter for Tab-separated Text Version 1.0.2 について 千葉 庄寿 (ちば しょうじゅ, CHIBA Shoju) 麗澤大学外国語学部 (College of Foreign Languages, Reitaku University) e-mail: schiba@reitaku-u.ac.jp Note: This file is encoded with UTF-8. このファイルは UTF-8 でエンコ ードされています。 =======目次======  ・この文書の更新履歴  ・概要  ・History  ・開発・動作環境  ・インストール方法  ・アンインストール方法  ・最新情報の入手  ・現バージョンでの動作制限と今後の開発予定  ・利用上の注意  ・謝辞 ======= 【この文書の更新履歴】 2003/03/12 HTML 出力のフォントの指定方法の説明を追加 2003/03/08 UTF-16 big endian のバグを修正し,記述を追加 2003/03/03 初版作成 (2003/03/04 更新) 【概要】 XML Converter for Tab-separated Text Version 1.0 (以下 XML Converter と略記することがあります) は,タブ Tab で区切られた Unicode テキスト ファイルをもとに ,XML によって構造化されたデータを作成するコンバー タです。テキストファイルは Unicode 形式 (UTF-8, UTF-16, UTF-16 big endian のいずれか) で保存します。 XML Converter は言語調査用のテキストコーパスを作成することに主眼を置い ているため,以下のような特定の構造の XML データのみを出力できます。 body 要素 ( ... = 本文を表します): 1つの div 要素を含みます div 要素 (
...
= セクションを表します): 1つ以上の p 要素を含みます p 要素 (

...

= 段落を表します): 1つ以上の s 要素を含みます s 要素 ( ... = 文を表します): 1つ以上の w 要素を含みます w 要素 (... = 単語を表します): 単語となるテキストを含みます   ※ w 要素には,変換元テキストに記述された情報が属性として入ります。     例:    上記の例では,w 要素の kana 属性の値は「ga」, gramm 属性の値は    「格助詞」となります。 例えば,Excel で作成し,Unicode Text 形式で保存した以下のようなタブ区 切りのテキストがあったとします (テキストは International Phonetic Assiciation (1999) Handbook of the International Phonetic Association: A Guide to the Use of International Phonetic Alphabet. Cambridge: Cambridge University Press. の日本語の例を抜粋引用しています)。Excel のワークシートを Unicode Text として変換すると,UTF-16 形式で各セルの 内容をタブ Tab で区切ったテキストファイルができます。(音声表記の一部が 文字化けしているかもしれませんが,その文字をもつフォントを利用すれば正 しく表示されます。) ====テキスト開始 (sample_ja.txt)==== text kana phon lemm gramm ある aru áɽu ある 連体詞 時 toki toki 時 副詞的名詞 , "," , 読点 北風 Kitakaze kitakaze 北風 普通名詞 と to to と 格助詞 太陽 Taiyō táijoː 太陽 普通名詞 が ga ga が 格助詞 力 chikara tˢikaɽa 力 普通名詞 くらべ kurabe kúɽabe くらべ 普通名詞 を o o を 格助詞 し shi si する "動詞,サ変動詞,基本連用形" ました mashita másita ます "動詞性接尾辞,動詞性接尾辞ま,タ形" 。 . 。 句点 旅人 tabibito tabibito 旅人 普通名詞 の no no の 接続助詞 外套 gaitō gaitoː 外套 普通名詞 を o o を 格助詞 脱が nuga nugá 脱ぐ "動詞,子音動詞ガ行,未然形" せた seta seta せる "動詞性接尾辞,母音動詞,タ形" 方 hō hóː 方 副詞的名詞 が ga ga が 格助詞 勝ち kachi katˢí 勝ち 普通名詞 と to to と 格助詞 いう yū juː いう "動詞,子音動詞ワ行,基本形" こと koto kotó こと 形式名詞 に ni ni に 格助詞 決めて kimete kimete 決める "動詞,母音動詞,タ系連用テ形" , "," , 読点 まず mazu mázu まず 副詞 北風 Kitakaze kitakaze 北風 普通名詞 から kara から 格助詞 始め hajime hazime 始める "動詞,母音動詞,基本連用形" ました mashita másita ます "動詞性接尾辞,動詞性接尾辞ま,タ形" 。 . 。 句点 ====テキスト終了==== このテキストは,一番左の列に元の単語を置き (縦にたどると元のテキストを 復元できます),その右にかな,音声表記,基本形,文法情報をそれぞれタブ で区切って配置したものです。また,このテキストの文と文の切れ目 (最初の 句点。の後) に空行を入れてあることに気をつけてください。XML Converter は空行ひとつを文の区切り,空行二つを段落の区切りと判断します。(空行は, Excel で Unicode Text として保存した後でも,Unicode 対応のエディタで開 くなどして編集することができます)。このテキストを XML Converter で XML 形式の構造化されたデータに変換した結果は以下のようになります。 ====データ開始 (sample_ja.xml)====

ある 北風 太陽 くらべ ました 旅人 外套 脱が せた 勝ち いう こと 決めて まず 北風 から 始め ました

====データ終了==== 変換された XML データは XML の構成規則に沿った Well-formed XML (整形式 XML) ですので,そのまま Internet Explorer で表示したり,他の XML アプ リケーションで処理することができます。 この変換例では変換先のファイルのエンコードを UTF-8 に, また w 要素の内 容 ( に囲まれたテキスト) に変換元の一番最初の項目 (Main text is at the column "1") を指定しています。どの列を w 要素の内容にするかは, オプションで自由に設定することができます。 XML Converter は文や段落の区切りを解釈して ... (および

...

) のタグを挿入します。また,項目が空の場合はその項目は出力しません。 また,先の sample_ja.txt をよく見ると,"," や "動詞,子音動詞ワ行,基本形" のように,タブ区切りの項目が前後に引用符を伴っている場合があります (これらの引用符は,CSV 形式と呼ばれるテキスト形式のデータの出力に似てい ますが,Excel が自動的に挿入したものです)。XML Converter は各項目の最初 と最後に加えられた引用符を削除して XML 化しますので,kana="","" や kana="","" (引用符の実体参照) といったおかしな出力を避けるこ とができます (前者は XML のきまりに違反します)。なお,項目の前後でない 位置の引用符は実体参照形式 (") に変換されます)。 XML 形式で作成したデータは,XML 形式を解する検索ツールなどを使って効率 よく分析することができます。例えば,Excel では,sample_ja.txt のような データを作成した場合,検索をしても,ヒットした単語を含む文がすぐには見 ることができませんが,Simple XML Data Viewer for Field Linguists のよう なツールを使うことで,検索してヒットした単語とその単語を含む文をすぐに リストすることができるようになります。 変換元のテキスト編集の際の注意点を以下に挙げます。 ・テキストの1行目には,必ず各列の内容を表す見出しテキストを入れます。  このテキストはそのまま w 要素の属性の値として使われます。XML 1.0 で  は属性名にスペースを使うことはできませんので,スペースは入れないよう  にしてください。 ・1行目の見出しは,必ず全ての列についてつけてください。データがあるの  に見出しがないテキストは変換できません (エラーになります)。 ・文と文の間は1行あけ,段落と段落の間は2行空けてください。 変換先の XML データについて,特に注意すべき点を挙げます。 ・&, ', <, >, " の5つの記号は XML の中で特殊な意味をもちます。XML Converter  で変換すると,テキスト中にある上記の記号はそれぞれ     &  &     '  '     <  <     >  >     "  "  という代替表記 (実体参照) に変換されます。 ・タブで区切られた項目の最初と最後に出てくる " は変換先 XML データでは  削除されます。 【History】 2003/03/12 バージョン 1.0.2 公開 ・HTML のテーブルにヘッダテキストをclass属性の値として追加 2003/03/08 バージョン 1.0.1 公開 ・UTF-16 big endian による出力のバグを修正 2003/03/03 バージョン 1.0 公開 【開発・動作環境】 XML Converter は Microsoft Visual C# .NET で開発 し,Windows2000 Professional Service Pack3 (CPU Pentium III 600Mhz, Memory 398MB), および Windows XP Professional Edition Service Pack 1 (CPU 1.0GHz, Memory 768MB) 上で動作を確認しています。 XML Converter の実行には Microsoft .NET Framework 1.0 の実行環境が必要です。.NET Framework は Windows 98, ME, NT, 2000, XP (Home & Professional) の各バージョンで利用できますが,Windows 95 お よびそれ以前のバージョンでは利用できません。.NET Framework のインストー ルファイルは,以下の URI から無償でダウンロードできます: 日本語: http://www.microsoft.com/japan/msdn/netframework/prodinfo/getdotnet.asp 英語: http://msdn.microsoft.com/netframework/downloads/howtoget.asp (上記 URI には実費で CD-ROM を入手するための情報もあります。)「.NET Framework 再頒布パッケージ」(ファイル名 dotnetredist.exe, 20.4MB) をダウンロードして実行すると.NET Framework をインストールするためのプ ログラムファイル dotnetfx.exe が生成されますので,dotnetfx.exe をダブ ルクリックしてインストールしてください。 なお,.NET Framework 1.0 の不具合やセキュリティーの更新をおこなう Service Pack 2 (5.9MB) がリリースされていますので,.NET Framework のインストール後にイ ンストールしておくことをおすすめします。以下の URI からダウンロードで きます: 日本語: http://www.microsoft.com/japan/msdn/netframework/downloads/sp2/download.asp 英語: http://msdn.microsoft.com/netframework/downloads/updates/sp/default.asp .NET Framework の Service Pack は,Microsoft が提供しているオンライン サービス Windows Update (URI: http://windowsupdate. microsoft.com/) を 使ってもインストールできます。 【重要】Windows 98, ME では動作を確認していません。XML Converter は Unicode 文字を処理するアプリケーションですので,Unicode の内部処理方式の異なる Windows 98 および Windows ME では,表示その他挙動がおかしくなる可能性があります。 【インストール方法】 1. Microsoft .NET Framework をインストールします (【動作環境】を参照して ください)。 2. 自己解凍式のZIPアーカイブ InstXMLconv.exe をダウンロードします。 3. アーカイブをダブルクリックし,解凍先のフォルダを指定します。 4. 解凍が完了すると,解凍先のフォルダに8種類のファイルが置かれます。 XMLConverter.exe ...実行ファイル XMLConverter.txt ...このファイル (日本語) readme.txt ... 簡単なレジュメ (英語) sample.txt ... 簡単なテキストサンプル (英語) sample.xml ... sample.txt の変換結果 (UTF-8 形式) sample_ja.txt ... テキストサンプル (日本語) sample_ja.xml ... sample_ja.txt の変換結果 (UTF-8 形式) sample_ja.htm ... HTML 版の変換結果 (UTF-8 形式, 以下の「現バージョン での動作制限と今後の開発予定」を参照してください) XMLConverter.exe をダブルクリックするとアプリケーションが起動します。 【アンインストール方法】 レジストリは使用しておりませんので,実行ファイル XMLConverter.exe を削 除するだけでアンインストールが完了します。 【最新情報の入手】 XMLConverter.exe の最新情報および最新の実行ファイルを含む自己解凍式 ファイルは http://www.fl.reitaku-u.ac.jp/~schiba/tools/ で入手できます。 【現バージョンでの動作制限と今後の開発予定】 現バージョンでは,おまけの機能として,データ を HTML 形式で出力するこ とができます (サンプルを sample_ja.htm としてインストール用アーカイブ に収録しています)。タブ区切りのテキストを表として出力するだけでなく, 選択した列から文を生成し,文番号や各単語に記述されたハイパーリンクから, 対応する表の位置へジャンプし,細かな情報を見ることができます。  なお,スタイルシート (CSS) というしくみを使い,表の列ごとフォントを 設定できます。HTML 出力のヘッダ部分 ( と に囲まれた部分) にある の /* と */ にはさまれた部分を編集すると,フォントを指定することができ ます。.phon を,ドット . + フォントを指定したい列のヘッダ名に変更し (た だし,main text に選んだ列は .text とします),さらにその行の行頭と行末の /* および */ をそれぞれ削除すると,Lucida Sans Unicode (または Arial Unicode MS) がインストールされているパソコン上のブラウザでは,指定した フォントでテキストが表示されます。例えば, は,phonetic というヘッダ名の列のフォントを変更します。  さらに,フォントの指定は,列の名前でいくらでも追加することができます。 例えば, とカンマを挟んで列名を列挙したり, のように,列によって別のフォントを設定したりできます。  スタイルシートについて,詳しくは HTML や CSS の参考書等を参照してく ださい。 現バージョンでは,以下のような注意点があります。 ・変換元となるテキストファイルの改行記号は Windows (DOS) 形式 (CR +  LF) のみをサポートしています。結果も Windows 形式で出力されます。 ・変換元となるテキストファイルのエンコードは Unicode (UTF-8, UTF-16,  UTF-16 big endian) 形式のみをサポートしています。Shift JIS などで作  成したデータを用いる場合は,一旦 Unicode 対応テキストエディタなどで  データを Unicode の形式に保存しなおしてから XML Converter で変換して  ください。 ・変換先の XML データのエンコードには,UTF-8, UTF-16, UTF-16 big endian  を選べます。それぞれ,XML データ冒頭に以下のような XML 宣言を記述し  ます。    UTF-8:    UTF-16 & UTF-16 big endian: ・[View] ボタンを使ってデータをテーブル形式で閲覧することができます。  テーブルは列のソートなどができますが,閲覧のみでデータの修正はできま  せん。また,データを選択してコピーする機能もありません。(データは標  準の設定では Arial Unicode MS, 10ポイントで表示されます。フォント設  定は [View] メニューの [Font] から変更できます。) ・w 要素の内容 ( で囲まれた部分) にくる列の番号は,  現バージョンでは 1 から 10 までからしか選択できません (自分で値を入  力しても変更できませんので注意)。今後の開発で,番号を直接入れられる  ようにするなどしたいと思います。 ・XML Converter はテキストの1行目をみて変換される XML データの w 要素  に入る属性の名前を決めますので,属性名は自由に決められます (ただし  XML 1.0 では属性名にスペースを使うことはできませんので注意してくださ  い)。しかし,要素名 (body, div, p, s, w) を変更することはできません。  (汎用のツールではなく,あくまで言語調査用のテキストコーパスを作成する  ことに主眼を置いているためです。) ・現バージョンでは複数の div 要素からなる XML データは出力できません。  しかし,div 要素は 1つでなければいけないわけではなく,例えば XML  Converter で作成された複数の XML データをひとつのコーパスデータにま  とめる際には,それぞれの XML データの div 要素をひとつの body 内に入  れることができます。 【利用上の注意】 XML Converter for Tab-separated Text はフリーソフトです。このソフトウエア の再配布は自由に行ってかまいませんが,その際は実行ファイルとともに, 同包されているファイル (XMLConverter.txt [このファイル] を含む) を一緒に 配布してください。なお,最新のバージョンをホームページ  URI: http://www.fl.reitaku-u.ac.jp/~schiba/tools/ からダウンロードして利用することをおすすめします。 ソフトウエアの著作権は千葉庄寿 (ちばしょうじゅ) にあります。ソフトウエ アの不具合や,このドキュメントの間違いなどを発見されましたら,制作者 千葉 (e-mail: schiba@reitaku-u.ac.jp) までお知らせいただけると幸いです。 なお,XML Converter を利用したことにより発生した損 害への責任は一切負いかねますのでご了承ください。 【謝辞】 このソフトウエア (XML Converter for Tab-separated Text Version 1.0) は文部 省科学研究費補助金 特定領域研究(A) 「環太平洋の『消滅に瀕した言語』に かんする緊急調査研究」 計画研究「情報処理による調査研究支援」 (課題番 号 12039213; 研究代表者 松村一登 (東京大学大学院人文社会系研究科)) の 研究成果の一環として開発されました。記して感謝いたします。