調整班B03
- 研究課題:「情報処理による調査研究支援」
- 研究代表者:松村 一登
次のような3つの柱をたて,各研究班の研究計画を調整班としての研究計画の中に位置づけた。
1. コーパス構築(テキスト,音声)
┏━━━━━━━━━━━━┓
┃言語学者の現地調査の成果┃
┃ ┃━━━━━━━━┓
┃としての音声資料(録音)┃ ┃
┗━━━━━━━━━━━━┛ ┃ ┏━━━━━━━━━━━┓
↓ ┃ ┃音声データとテキストが┃
┏━━━━━━━━━━━━━━━━━━┓ ┃⇒┃ ┃
┃音声記号(広義)による転写(文字化)┃ ┃ ┃関連づけられたコーパス┃
┗━━━━━━━━━━━━━━━━━━┛ ┃ ┗━━━━━━━━━━━┛
↓ ┃
┏━━━━━━━━━━━━━━━━━┓ ┃
┃ASCIIファイル化 ⇒ コーパス┃━━━┛
┗━━━━━━━━━━━━━━━━━┛
2. コーパスのタグ付け(markup)
- テキストに段落,文の境界を明示する程度なら,どんな言語についても可能。
それより先の可能性についての研究の必要性
- 付加情報
- markup の自動化
- いわゆる lemmatizer, POS tagger の活用
- 文に統語構造を与えるプログラムの活用
- disambiguation の問題にどう対処するか
3.検索(concordancing)
- テキストのみの場合: GREP + SORT でも間にあう(?)。市販のソフトも利用可。
- 複雑なタグがついたコーパスの場合
- Perl スクリプトの開発
- 全文検索システムの利用の可能性(未開拓)