私は,フィンランド語,エストニア語,マリ語のテクストから,コンピュータを使って用例を検索し,文法研究のデータとしています。このページは,試作品の CGIプログラムを使って用例検索のデモをしています。
プログラム言語としては,Perl 5 を使っています。ここで使っている CGI プログラムは,UNIX 環境から Windows NT/98 用に移植された Perl 5 で開発したスクリプトを少し手直しして,WWW サーバーにのせたものですが,Perl のスクリプトは基本的に Windows 上でも UNIX 上でも動きます。
用例検索の場合,直接入力できないウムラウト文字や,ロシア文字などは,入力できる文字に置き換えて指定します。
上の用例検索プログラムの最初のものは,文字や文法タグのセットを明示的に定義することができるなら,このデモで扱っている言語(エストニア語,フィンランド語,マリ語,英語)以外の言語のテキストからの用例検索もできるようになります。ドイツ語と古英語については,昨年度の授業で実験済みですが,このほかに,今,ボート語(ウラル系)とトルコ語のテキストの検索ができるようにする計画を立てています。
2番目の用例検索プログラムは,形態論・品詞情報付きのデータの存在を前提にしています。エストニア語の場合,EstMorf という名前の形態分析用のプログラム(POS tagger)の出力をほぼ少し加工して利用しています。 さらに,トルコ語は,形態論・品詞情報付きのデータが提供されているので,トルコ語について,1番目のプログラムに相当するものを構想中です。
更新日:2000/06/24