「IT」をGoogleで検索する (おまけ)
おまけです。「IT考現学」とGoogleで検索しても,ヒットしません。これは,ITがあまりにも一般的な単語 (代名詞 it ) なので,わざと検索時に無視されるためです。このキーワードで厳密に検索したい場合には,次のように,ITの前に+を置いてITを明示的にヒットさせます: +IT考現学
詳しくは,Googleのヘルプをどうぞ。
ページ公開 [04-18]
※
文中にある [e-Words] というリンクから IT用語辞典 e-Words の用語解説を開くことができます。
おまけです。「IT考現学」とGoogleで検索しても,ヒットしません。これは,ITがあまりにも一般的な単語 (代名詞 it ) なので,わざと検索時に無視されるためです。このキーワードで厳密に検索したい場合には,次のように,ITの前に+を置いてITを明示的にヒットさせます: +IT考現学
詳しくは,Googleのヘルプをどうぞ。
半年の授業が終了しました。今回は,「テキスト」というデジタルメディアにターゲットを絞り,データ形式,入力編集・蓄積・加工・検索の方法をさまざま試してみました。また,テキストエディタ,Excel,Accessといった個別のアプリケーションソフトウエアの利用方法とともに,プログラミング言語 (Perl) やテキスト検索用の特殊なツール (自作を含む) についてもいくつか言及しました。
テキスト形式のデータは,授業でも触れたとおり,さまざまなツールやアプリケーションソフトウエアで扱うことのできる汎用性の非常に高いデジタルメディアです。何しろ,文字の情報しか入っていませんので,読み込み,書き出しは容易です (もちろん,各言語や地域のエンコードの問題は,個別に考えなければなりませんが)。そして,もう一つ,テキスト形式のデータは,資料の保存という意味でも,非常に重要な意味があると思います。
2005年7月16日付けの読売新聞夕刊のコラム「IT考現学」に,ITジャーナリストの島田範正さんが「管理大変 デジタル資料」という記事を寄せています。そこで紹介されているのは,紙媒体の資料のみならず,CD-ROMその他のデジタル出版物も収集・保存する国立国会図書館で平成14年度から実施されている電子図書館プロジェクト「電子情報の長期的な保存と利用」の報告書です。国内唯一の納本・保存図書館として,現代の文化的遺産ともいえる電子情報をいかに後世に伝えるか。その実験として現在所蔵されている電子媒体のデータがどれだけ再生可能かを平成15年度の調査で実験したところ,サンプルとして抽出した約7割 (138点) に利用上の問題があることが明らかになったのだそうです。
異種媒体への移行 [ "マイグレーション" migration ] については,移行後のファイル形式の問題があったが,おおむね予想通りの結果であった。一方,エミュレーション [ emulation = (古い)環境を仮想的に構築すること ],ファイル形式変換およびマルチファイルビューワについては予想をはるかに下回る結果となった。 (平成16年度の報告書 第3章「おわりに」)
記録メディアとしてのデジタル情報は,日進月歩の勢いで進化します。進化する,ということは,以前のデータがいつ使えなくなってもおかしくない,ということであり,私たちが自分で作る研究データについても,10年後,20年後までちゃんと使えるのか,ということをしっかりと見据えなければならないと実感する報告だと思います。
半年間,お疲れさまでした。
第5回の授業で扱えなかった練習問題のうち,練習3と4の答えを以下に示します。資料では問題の通し番号が完全におかしくなっていますので,以下では番号を省略します。なお,ブラウザ上では,円記号がバックスラッシュ (\) として表示されるようです。
練習問題3 |
||
| 問題 | 検索する文字列 | |
|---|---|---|
| 英語の(不)定冠詞 | \b(an?|the)\b |
|
| 「コンピュータ」と「コンピューター」 | コンピューター? |
|
| 「短い」「短かい」「みじかい」 | (短か?|みじか)い |
|
| 3桁以上6桁以下の数字 | \b\d{3, 6}\b |
|
| 英語の動詞makeの変化形 | \bmak(es?|ing)\b|\bmade\b |
|
| 「ぽたぽた」のような2文字以上4文字以下の繰り返し表現 | ([ぁ-んァ-ヶ]{2,4})\1 |
|
| 漢字2文字+する (変化形を含まない) | [\x3400-\x9fff\xf900-\xfa2d]{2}する |
|
| 漢字2文字+する (変化形を含む) | [\x3400-\x9fff\xf900-\xfa2d]{2}([さしせ]|す[るれ]) |
|
| as + 任意の一語 + as (改行を超えない) | \bas\s+\w+\s+as\b |
|
| 「~していく」の変化形 | (て|で)[いゆ行][かきくけこ] |
|
練習問題4 |
||
| 問題 | 検索する文字列 | 置換後の文字列 |
| 「私」を検索し,両側にタブを挿入 | (私) |
\t\1\t |
| 「私」「わたし」「わたくし」を検索し,両側にタブを挿入 | (私|わたく?し) |
\t\1\t |
| 「ゝ」を直前の文字に置換 | (.)ゝ |
\1\1 |
| 「ぽたぽた」のような繰り返し表現を検索し,両側にタブを挿入 | (([ぁ-んァ-ヶ]{2,4})\2) |
\t\1\t |
第3回の授業では,HTML [e-Words] は有限個の要素名,属性名からなるタグをメタテキストとして用い,文書の各部分が文書構造上どのような位置づけにあるのか (見出し,パラグラフ etc.) を記述する。それにより,リスト形式のデータベースでは扱い切れない複雑な構造をテキストデータとして表現できる,という話しました。例えば p という要素により,<p> と </p> で囲まれた部分が「段落」という位置づけにあることが分かるわけです。
受講者の方から,「課題のnakao.txtのテキストの原文では,p 要素で囲んだところが字下げされているが,HTML文書ではそうはなっていない。これでよいのか」という質問を受けました。実は,HTMLで p 要素としてタグ付けされているということは,それが「段落」であることだけを表し,どう表示されるかとは関係がありません。むしろ,表示方法はその文書を表示するソフトウエア (WWW ブラウザなど) に任せられています。こうしたHTMLの特性は,メディアを選ばない「ユニバーサルアクセス」を志向する WWW コンソーシアム の技術指針 [ >> もっと詳しく ] と深く関連していると思われます。
もし,ブラウザで段落の先頭を1字字下げしたい場合には,例えば,以下のように p 要素の開始タグの中に「スタイル」を指定します:<p style="text-indent: 1em"> (style という属性が字下げを定義しているのであって,p はそれ自体では何も規定するものではないことに注意してください)。なお,この指定は,全ての p 要素の開始タグに記述する方法と,スタイルシートとしてまとめて記述しておく方法があります。後者の方法については,神崎正英さんの「スタイルシートの基本」などを参照してください。
構造とデザインの峻別,というポリシーは,XML [e-Words] においてさらに一層徹底されています。
第2回以降の授業の実習では,多機能テキストエディタ EmEditor (えむえでぃたー) を利用します。EmEditor はWindowsに標準でついてくるソフトウエアではなく,シェアウエア [e-Words] と呼ばれる有料のソフトウエアです。シェアウエアはダウンロードをおこない,パソコンにインストールして一定期間 (EmEditor は30日間) 試用することのできますが,正式に利用するためには使用料を払う必要があります。EmEditor には,学生や教職員のための アカデミックライセンス制度があり,登録すれば在学中は無料で利用できます。自分のPCにインストールして利用したい人はこの制度を利用するのもよいでしょう。
EmEditor には,機能によって Standard 版と Professional 版があります。大学のPCには Professional 版が入っています。EmEditor をこれから利用する皆さんには高機能な Professional 版の利用を断然おすすめします。簡単な機能比較が載っているダウンロードのページはこちらにありますが,例えば多言語処理に関し,Professional版では文字エンコード方式を指定したファイル横断検索ができます。
なお,EmEditor Professional には EmEditor Professional 2004 という製品パッケージ版も発売されています (税込 6,825円)。ソフトウエア自体の内容はシェアウエア版と同じですが,冊子でマニュアルがついてきます。