計画研究ア
- 研究課題:「消滅に瀕した言語の言語資料のコンピュータ処理のためのデータ構造・
分析ツールの研究」
- 研究代表者:松村 一登
松村一登 (研究代表者)
比較的入手が容易な,ウラル諸語,アルタイ諸語の言語データとこれらの言語のために開発されたプログラムを利用して,危機言語のデータにも利用可能なツールや研究方法を開発し,成果を公開する。
- 録音データを転写したものをテキスト・コーパス化して,文法研究に利用する方法を開発する。言語データは,前年度,エストニアの言語学者の協力で入手したバルト・フィン系の小言語の音声資料(ボート語など6言語,1言語あたり3時間〜10時間)を利用する。
- 形態・品詞・統語情報を付加したテキスト・コーパスのための用例検索ツールを開発し,著作権の制約がなく公開可能なデータとともにCDROMなどのメディアで配布する準備を行う。
- エストニア語:タルト大学で開発された形態分析プログラム(EstMorf)と200万語のコーパスが現在入手可能
- トルコ語:Bilkent 大学で開発された形態分析プログラムにより形態・品詞情報を付加した100万語のコーパスが現在入手可能
- フィンランド語:形態分析プログラム(FinTwol),構文解析プログラム(FDG)のライセンス利用が可能;2000万語のコーパスのオンライン利用が可能