2000年度の研究計画

研究の目的

  1. 消滅に瀕した言語のデータを実際にコンピュータ入力し,コーパス言語学の研究に耐えるような形に加工する際に直面する技術的な問題を解決する。消滅に瀕した言語は文字を持たないのが普通であり,このような言語の場合,録音資料などの音声データを音声記号等に転写した上でコンピュータ入力し,テキストコーパスとして加工することになる。そのために,文字コード,文字フォント,マークアップなどについての研究を行なう。

  2. 小さな言語になればなるほど,言語のコンピュータ処理のためのプログラムやツールが利用しにくくなるのが現状である。個々の研究者が自分の研究対象の言語のために独自にプログラムを開発するのは非現実的であるから,すでに開発されているプログラム,ツールに範を得て,消滅に瀕した言語のテキストの特殊性に配慮したツールを開発する。

  3. 上の2点を実現するために,さまざまな言語のコンピュータ処理が日常的に行われているEU諸国の研究者との情報交換や,コンピュータ処理がもっとも進んでいる英語のコーパス研究の実際についての情報収集を行う。

本年度の研究実施計画

 プロジェクトの研究目標を実現するために,本年度は次のような個別・具体的な研究テーマを設定する。

[コーパス構築]

  1. 文字を持たず,テクストを音声記号を用いて記録する必要のある言語の例としてウラル系のボート語を選び,文法研究のためのテキストコーパスを作成する。

  2. 工学系研究者との協力で,いわゆる「地図課題コーパス」の手法により内モンゴルのモンゴル語方言の音声データとテキストを加工する。

[コーパス検索ツールの開発]

  1. 正書法が確立しているウラル諸語(フィンランド語,エストニア語)のコーパス研究のためにプログラム言語 Perl により開発した用例検索ツールを,音声記号で記録される言語(たとえば,ボート語)のコーパス研究にも利用できるよう改善を行う。

  2. 研究が最も進んでいる英語のコーパス分析のためのツールを基に消滅に瀕した言語のテキスト分析に適したツールを開発する。

  3. 複数の言語のコーパスに利用できる共通のツールを備えたコーパスサーバーを試験的に立ちあげる。

[調査・情報収集]

  1. コーパス研究の先進国イギリスの研究教育機関を訪問,研究者と情報交換し,コーパスサーバーの運用の実際を査察することによって,コーパス研究の最先端の知識と情報を収集する。

  2. さまざまな言語のコーパスの所在や入手状況,およびコーパス言語学のためのツールの所在を中心とするコーパス言語学関連の情報収集を行い,消滅に瀕した言語の研究者に提供する。