last update: 2001-12-05 |
||
2001年度海外出張報告:千葉 |
リンクはページ末にリンク集として一括して示しています。
電子化されたテキストコーパスの構造を正確に表現する最も一般的な方法は,SGML (Standard Generalised Markup Language) と呼ばれる方式のマークアップを利用することである。SGMLは DTD (Document Type Definition) と呼ばれる定義方法をもちいて文書の構造を厳密に処理する。既存の DTD の中でも,TEI (Text Encoding Initiative) コンソーシアムの策定したもの (TEI DTD) は,あらゆる印刷物の電子化を想定して詳細に定義がおこなわれており,テキストコーパスをはじめ,これまで多くの分野で活用されてきている。
現在,SGML に代わり,より効率よくコンピュータ処理ができるように SGML を最適化し,同時に記述の簡略化・厳密化を図った XML (eXtensible Markup Language) の開発が進んでおり,次世代の電子テキストマークアップ形式として,実際の電子化データへの応用がはじまっている。TEI も XML に対応するべく,改訂版の作成がオックスフォード大学のチームを中心に進行中である。今回の海外出張では,XML 用に改良された TEI に関する情報収集を目的に,Humanities Computing Unit (HCU, Oxford University Computing Services) の主催する2つの夏季セミナーに参加した。
1つめのセミナー "Putting your database on the Web" では,Microsoft Access と IIS (Internet Information Server) を使い,手軽に Webデータベースを作成する方法が紹介され,実習と講義が半分ずつおこなわれた。
規格がほぼ固まったばかりという XML 版 TEI の紹介は,HCU の代表である Lou Burnard 氏とスタッフの Sebastian Rahtz 氏の2人が中心となって行われた。
DTD について言えば,XML の名前空間 (Namespace) という複数の DTD を混在させる新しい技術が XML から導入されたことで,DTD のカスタマイズや,文書での利用方法がかなり変わるという印象を受けた。残念なことに,肝心の,XML エディタ (TEI-emacs を使用) で DTD や XML ファイルを実際に編集する作業は規格の説明の時間に比べて大変短かった。特に DTD のカスタマイズの実習は,講義の5分の1程度と大変短く,ソフトにさわってみた程度の実感しか持てず,参加者の多くは不満に感じたようであった。
XML のほか,XML から HTML を自動生成する方法として,XSL-T (XSL Transformations) についてもかなり集中的な講義があり,変換エンジンとして SAXON を用い,実習がおこなわれた。
XSL は (Extensible Stylesheet Language) は XML の構造を視覚化するための規格で,つい先日 (2001年10月) に規格が W3C によって正式に推奨規格 (Recommendation) となった。
一方,XSL-T (XSL Transformations) は DTD など特定の定義で構造化された XML 文書を,(例えば HTML 文書のような) 別の構造の文書に変換する場合の構造の対応関係を定義するもので,1999年11月にWWW コンソーシアム (W3C) の推奨規格となった。