XML Converter for Tab-separated Text Version 1.0.2 について 千葉 庄寿 (ちば しょうじゅ, CHIBA Shoju) 麗澤大学外国語学部 (College of Foreign Languages, Reitaku University) e-mail: schiba@reitaku-u.ac.jp Note: This file is encoded with UTF-8. このファイルは UTF-8 でエンコ ードされています。 =======目次====== ・この文書の更新履歴 ・概要 ・History ・開発・動作環境 ・インストール方法 ・アンインストール方法 ・最新情報の入手 ・現バージョンでの動作制限と今後の開発予定 ・利用上の注意 ・謝辞 ======= 【この文書の更新履歴】 2003/03/12 HTML 出力のフォントの指定方法の説明を追加 2003/03/08 UTF-16 big endian のバグを修正し,記述を追加 2003/03/03 初版作成 (2003/03/04 更新) 【概要】 XML Converter for Tab-separated Text Version 1.0 (以下 XML Converter と略記することがあります) は,タブ Tab で区切られた Unicode テキスト ファイルをもとに ,XML によって構造化されたデータを作成するコンバー タです。テキストファイルは Unicode 形式 (UTF-8, UTF-16, UTF-16 big endian のいずれか) で保存します。 XML Converter は言語調査用のテキストコーパスを作成することに主眼を置い ているため,以下のような特定の構造の XML データのみを出力できます。 body 要素 (
... = 本文を表します): 1つの div 要素を含みます div 要素 (...
= 段落を表します): 1つ以上の s 要素を含みます s 要素 (
...
) のタグを挿入します。また,項目が空の場合はその項目は出力しません。 また,先の sample_ja.txt をよく見ると,"," や "動詞,子音動詞ワ行,基本形" のように,タブ区切りの項目が前後に引用符を伴っている場合があります (これらの引用符は,CSV 形式と呼ばれるテキスト形式のデータの出力に似てい ますが,Excel が自動的に挿入したものです)。XML Converter は各項目の最初 と最後に加えられた引用符を削除して XML 化しますので,kana="","" や kana="","" (引用符の実体参照) といったおかしな出力を避けるこ とができます (前者は XML のきまりに違反します)。なお,項目の前後でない 位置の引用符は実体参照形式 (") に変換されます)。 XML 形式で作成したデータは,XML 形式を解する検索ツールなどを使って効率 よく分析することができます。例えば,Excel では,sample_ja.txt のような データを作成した場合,検索をしても,ヒットした単語を含む文がすぐには見 ることができませんが,Simple XML Data Viewer for Field Linguists のよう なツールを使うことで,検索してヒットした単語とその単語を含む文をすぐに リストすることができるようになります。 変換元のテキスト編集の際の注意点を以下に挙げます。 ・テキストの1行目には,必ず各列の内容を表す見出しテキストを入れます。 このテキストはそのまま w 要素の属性の値として使われます。XML 1.0 で は属性名にスペースを使うことはできませんので,スペースは入れないよう にしてください。 ・1行目の見出しは,必ず全ての列についてつけてください。データがあるの に見出しがないテキストは変換できません (エラーになります)。 ・文と文の間は1行あけ,段落と段落の間は2行空けてください。 変換先の XML データについて,特に注意すべき点を挙げます。 ・&, ', <, >, " の5つの記号は XML の中で特殊な意味をもちます。XML Converter で変換すると,テキスト中にある上記の記号はそれぞれ & & ' ' < < > > " " という代替表記 (実体参照) に変換されます。 ・タブで区切られた項目の最初と最後に出てくる " は変換先 XML データでは 削除されます。 【History】 2003/03/12 バージョン 1.0.2 公開 ・HTML のテーブルにヘッダテキストをclass属性の値として追加 2003/03/08 バージョン 1.0.1 公開 ・UTF-16 big endian による出力のバグを修正 2003/03/03 バージョン 1.0 公開 【開発・動作環境】 XML Converter は Microsoft Visual C# .NET で開発 し,Windows2000 Professional Service Pack3 (CPU Pentium III 600Mhz, Memory 398MB), および Windows XP Professional Edition Service Pack 1 (CPU 1.0GHz, Memory 768MB) 上で動作を確認しています。 XML Converter の実行には Microsoft .NET Framework 1.0 の実行環境が必要です。.NET Framework は Windows 98, ME, NT, 2000, XP (Home & Professional) の各バージョンで利用できますが,Windows 95 お よびそれ以前のバージョンでは利用できません。.NET Framework のインストー ルファイルは,以下の URI から無償でダウンロードできます: 日本語: http://www.microsoft.com/japan/msdn/netframework/prodinfo/getdotnet.asp 英語: http://msdn.microsoft.com/netframework/downloads/howtoget.asp (上記 URI には実費で CD-ROM を入手するための情報もあります。)「.NET Framework 再頒布パッケージ」(ファイル名 dotnetredist.exe, 20.4MB) をダウンロードして実行すると.NET Framework をインストールするためのプ ログラムファイル dotnetfx.exe が生成されますので,dotnetfx.exe をダブ ルクリックしてインストールしてください。 なお,.NET Framework 1.0 の不具合やセキュリティーの更新をおこなう Service Pack 2 (5.9MB) がリリースされていますので,.NET Framework のインストール後にイ ンストールしておくことをおすすめします。以下の URI からダウンロードで きます: 日本語: http://www.microsoft.com/japan/msdn/netframework/downloads/sp2/download.asp 英語: http://msdn.microsoft.com/netframework/downloads/updates/sp/default.asp .NET Framework の Service Pack は,Microsoft が提供しているオンライン サービス Windows Update (URI: http://windowsupdate. microsoft.com/) を 使ってもインストールできます。 【重要】Windows 98, ME では動作を確認していません。XML Converter は Unicode 文字を処理するアプリケーションですので,Unicode の内部処理方式の異なる Windows 98 および Windows ME では,表示その他挙動がおかしくなる可能性があります。 【インストール方法】 1. Microsoft .NET Framework をインストールします (【動作環境】を参照して ください)。 2. 自己解凍式のZIPアーカイブ InstXMLconv.exe をダウンロードします。 3. アーカイブをダブルクリックし,解凍先のフォルダを指定します。 4. 解凍が完了すると,解凍先のフォルダに8種類のファイルが置かれます。 XMLConverter.exe ...実行ファイル XMLConverter.txt ...このファイル (日本語) readme.txt ... 簡単なレジュメ (英語) sample.txt ... 簡単なテキストサンプル (英語) sample.xml ... sample.txt の変換結果 (UTF-8 形式) sample_ja.txt ... テキストサンプル (日本語) sample_ja.xml ... sample_ja.txt の変換結果 (UTF-8 形式) sample_ja.htm ... HTML 版の変換結果 (UTF-8 形式, 以下の「現バージョン での動作制限と今後の開発予定」を参照してください) XMLConverter.exe をダブルクリックするとアプリケーションが起動します。 【アンインストール方法】 レジストリは使用しておりませんので,実行ファイル XMLConverter.exe を削 除するだけでアンインストールが完了します。 【最新情報の入手】 XMLConverter.exe の最新情報および最新の実行ファイルを含む自己解凍式 ファイルは http://www.fl.reitaku-u.ac.jp/~schiba/tools/ で入手できます。 【現バージョンでの動作制限と今後の開発予定】 現バージョンでは,おまけの機能として,データ を HTML 形式で出力するこ とができます (サンプルを sample_ja.htm としてインストール用アーカイブ に収録しています)。タブ区切りのテキストを表として出力するだけでなく, 選択した列から文を生成し,文番号や各単語に記述されたハイパーリンクから, 対応する表の位置へジャンプし,細かな情報を見ることができます。 なお,スタイルシート (CSS) というしくみを使い,表の列ごとフォントを 設定できます。HTML 出力のヘッダ部分 ( と に囲まれた部分) にある の /* と */ にはさまれた部分を編集すると,フォントを指定することができ ます。.phon を,ドット . + フォントを指定したい列のヘッダ名に変更し (た だし,main text に選んだ列は .text とします),さらにその行の行頭と行末の /* および */ をそれぞれ削除すると,Lucida Sans Unicode (または Arial Unicode MS) がインストールされているパソコン上のブラウザでは,指定した フォントでテキストが表示されます。例えば, は,phonetic というヘッダ名の列のフォントを変更します。 さらに,フォントの指定は,列の名前でいくらでも追加することができます。 例えば, とカンマを挟んで列名を列挙したり, のように,列によって別のフォントを設定したりできます。 スタイルシートについて,詳しくは HTML や CSS の参考書等を参照してく ださい。 現バージョンでは,以下のような注意点があります。 ・変換元となるテキストファイルの改行記号は Windows (DOS) 形式 (CR + LF) のみをサポートしています。結果も Windows 形式で出力されます。 ・変換元となるテキストファイルのエンコードは Unicode (UTF-8, UTF-16, UTF-16 big endian) 形式のみをサポートしています。Shift JIS などで作 成したデータを用いる場合は,一旦 Unicode 対応テキストエディタなどで データを Unicode の形式に保存しなおしてから XML Converter で変換して ください。 ・変換先の XML データのエンコードには,UTF-8, UTF-16, UTF-16 big endian を選べます。それぞれ,XML データ冒頭に以下のような XML 宣言を記述し ます。 UTF-8: UTF-16 & UTF-16 big endian: ・[View] ボタンを使ってデータをテーブル形式で閲覧することができます。 テーブルは列のソートなどができますが,閲覧のみでデータの修正はできま せん。また,データを選択してコピーする機能もありません。(データは標 準の設定では Arial Unicode MS, 10ポイントで表示されます。フォント設 定は [View] メニューの [Font] から変更できます。) ・w 要素の内容 (