学位論文要旨



No 119867
著者(漢字) 増山,毅司
著者(英字)
著者(カナ) マスヤマ,タケシ
標題(和) 大規模コーパスからのカタカナ語の異表記リストの自動構築
標題(洋)
報告番号 119867
報告番号 甲19867
学位授与日 2005.03.24
学位種別 課程博士
学位種類 博士(学術)
学位記番号 博総合第571号
研究科 総合文化研究科
専攻 広域科学専攻
論文審査委員 主査: 東京大学 教授 中川,裕志
 東京大学 教授 川合,慧
 東京大学 教授 山口,和紀
 東京大学 教授 山口,泰
 東京大学 助教授 植田,一博
内容要旨 要旨を表示する

英語や日本語のような言語には,同じ意味を表現する場合でもその表記に揺れが現れるという特徴がある.特に日本語の場合は,外来語と呼ばれる外国から借用しているカタカナ語に表記の揺れが非常に多く,情報検索,情報要約,機械翻訳,質問応答などさまざまな自然言語処理分野で問題になっている.

 表1 に外来語の例を示す.表1 の第1 列は英単語を示し,第2 列は外来語の異表記の例を示している.このような異表記を大規模なコーパスから探してこようとすると非常に手間とコストがかかるという問題がある.本論文では,このような問題を解決するために,大規模なコーパスから自動的にカタカナ語の異表記リストを構築することを目的とする.

 これまでに,カタカナ異表記の生成や抽出に関する研究が多く報告されている.それらの研究は,大きく2 つに分けられる.1 つは,人手でカタカナ異表記の変換ルールを作成して,その変換ルールを用いてカタカナ異表記を生成・抽出する方法である.もう1 つは,カタカナ異表記を自動的に抽出方法である.

 前者の問題点としては,人手で変換ルールを作成しているために,変換ルールの維持・管理に非常に手間とコストがかかることが挙げられる.外来語には,新語が多く,かつ,異表記のバリエーションも多様なために,人手でルールを作成するには限界があると考える.

 後者の問題点としては,表記の類似度を測る重みの調整が人手で行われているために,外来語の新語が増えた場合に重みを調整し直さなければならないことが挙げられる.

 本論文では,この重みを自動的に調整するような表記ペナルティという尺度を提案する.表記ペナルティを使うと,例えば,「ア」と「ァ」,「ズ」と「ス」の置き換え,及び,「−」の挿入と削除は表記ペナルティが1,「ィ」と「ー」,「ヴ」と「ブ」の置き換えは表記ペナルティが2,「ト」と「ツ」,「ヴ」と「ウ」の置き換えは表記ペナルティが3 などという値を自動的に決定することができる.

 本論文では,「vodka ウォッカ」のような英単語と外来語のリストを用意し,Google と呼ばれる検索エンジンを用いて,日本語ページ指定検索や「英和」というキーワードを加えた検索により「vodka 」を含むページの抽出を行う.次に得られたページから「ウォッカ」との編集距離が1 のカタカナ語ペアを異表記候補ペアとして抽出する.この場合,(ウォッカ,ウォトカ),( ウォッカ,ウオッカ),( ウォッカ,ヴォッカ) が編集距離1 で異表記候補ペアとして抽出される.そして,異表記候補ペアの各々をもう一度Google 検索してカタカナ語が属する文章コンテキストの抽出を行い,コサイン類似度がある閾値以上の場合は異表記ペアとして抽出する.

 本論文では,「異表記は,カタカナ語を構成する特定の文字または文字列と共起して起こる」という特性を利用して表記ペナルティの計算を行う.まず,得られた異表記ペアに対して,挿入,削除,置換が起こった文字の前後数文字を文字コンテキスト(context) とし,各文字コンテキストに対してオペレーション(x〓y) が起こる確率を式(1) により計算する.

(1)

 次に得られた確率から,オペレーション(x〓y) が起こる確率を最大化するような文字コンテキストを式(2) により求める.

(2)

 最後に,式(2) から求めた文字コンテキスト(context) を使って,オペレーション(x〓y) に対する表記ペナルティ(SPx〓y) を式(3) により求める.なお,本論文では,式(3) により得られた値の整数部分を表記ペナルティとしている.

(3)

 式(3) により,オペレーションが特定の文字または文字列と共起して起こる場合は,表記ペナルティの小さい値が得られ,そうでない場合は表記ペナルティの大きい値を得ることができる.

 本論文では,長年自然言語処理の研究に従事している専門家が手動で作成した表記ペナルティと精度比較したところ,ほぼ同程度の精度で重みが調整できていることがわかった.

 次に,本論文では,この表記ペナルティという表記の類似性を測る尺度を用いて大規模コーパスから自動的にカタカナ語の異表記リストを構築する方法を提案する.本論文で提案する異表記リストの構築方法の流れを図1 に示す.

 図1 の1 では,カタカナ,・,ー,−,―の連続をパターンマッチングで切り出すことによってカタカナ語の抽出を行う.例えば,次のような2 つのコンテキストがあった場合に,本論文では,太字のカタカナ語のみを抽出する.

.吉本興業は「てんねんでんねんミネラルウォーター」を発売したが,予想をはるかに上回るヒット商品となった.このため「笑いは健康のもと」にちなみ「健康」をテーマとした商品づくりを推進することにした.

.快適な生活環境を実現するために欠かせないものの中に"安全できれいな水" がある.しかもより高い水質,おいしい水や健康によい影響を与える機能を持つ水なども求められている.水は"ただ" ではなくなりミネラルウオータは飲用だけでなく料理に使う人も多くなっている.

 図1 の2 では,表記の類似性を測る尺度である表記ペナルティを用いて異表記候補ペアの抽出を行う.例えば,2 つのコンテキストから切り出したカタカナ語に対して,(テーマ,ヒット),( テーマ,ミネラルウォーター),( テーマ,ミネラルウオータ),( ヒット,ミネラルウォーター),( ヒット,ミネラルウオータ),( ミネラルウォーター,ミネラルウオータ) のカタカナ語の組み合わせを考えた場合に,(ミネラルウォーター,ミネラルウオータ) のみが表記ペナルティが2 となり,閾値3 よりも小さいため異表記候補ペアとして抽出される.

 ここで,切り出されたカタカナ語の数が多いほど,比較に要する計算量の問題が無視できなくなる.そこで,本論文では,最初の1 文字は同じカタカナ文字であるという条件や3 文字未満のカタカナ語は無視するという条件などにより異表記候補ペアの絞り込みを行っている.

 図1 の3 では,抽出した候補ペアに対して,カタカナ語が属する文章コンテキストの類似性を測る尺度であるコサイン類似度を用いて表記の揺れかどうかの判定を行う.例えば,異表記候補ペアとして抽出された「ミネラルウォーター」と「ミネラルウオータ」の文章コンテキスト,及び,コサイン類似度を示すと次のようになる.この場合,コサイン類似度が0.19 で閾値の0.05 よりも大きいため,本論文では,「ミネラルウォーター」と「ミネラルウオータ」を異表記ペアであると判定する.

ミネラルウォーター: 影響:1.1,健康:1.4,水:1.6,料理:0.7,・・・

ミネラルウオータ: 影響:0.7,健康:0.7,水:3.4,料理:1.4,・・・

 本論文では,延べ38 年分の新聞記事を対象に実験を行った結果,再現率91.5%,適合率91.7%,F.measure 値91.6%で異表記リストを構築することができた.また,市販の文書作成ソフトウエアの「表記揺れチェック機能」との性能比較,及び,検索エンジンとの性能比較を行ったところ,高い精度で異表記リストを構築できていることが確認できた.さらに,異表記リストをテキスト分類問題に適用し,特に適合率の向上に異表記リストが有効であることがわかった.

表1: 外来語の異表記の例

図1: 異表記リストの構築方法の流れ

審査要旨 要旨を表示する

 本学位請求論文は日本語において外来語の表記のために用いられるカタカナ表記が揺れる、すなわち同じ意味であるにもかかわらず異なる表記(以下、これをカタカナ異表記と呼ぶ)になる現象が引き起こす問題の解決方法に関するものである。

 カタカナ異表記が存在することは、情報検索、日本語から他の言語への機械翻訳、文書分類など多岐にわたる日本語を扱う応用分野において根本的な問題である。例えば、「ロシア」と「ロシヤ」を同じ意味を示すカタカナ異表記であることが認識できないと、情報検索などの精度は劣化する。本論文はこの問題を人間の言語的直感に頼らず、計算機プログラムによって解決する手法を提案したもので、7章からなる。

第1章では、カタカナ異表記の問題提起を行っている。第2章では関連研究を概観している。第3章では、ふたつのカタカナ語が異表記であるか否かを判定するための尺度となる表記ペナルティをシステマティックな統計処理によって求める方法を提案しており、本論文の主要な提案のひとつである。まず、Web上の英日辞書等を検索エンジンで検索し、一つの英単語から派生したカタカナ表記を収集する。次に収集したカタカナ異表記を統計的に処理して、二つのカタカナ表記が「ア」と「ァ」、「ヴァ」と「バ」などの文字列を含むとき異表記になるかどうかの尺度となる表記ペナルティと呼ぶ文字列ペア間の重みを導出した。第4章は、二つのカタカナ語の異表記か否かの判別を、3章の結果である表記ペナルティとそれらのカタカナ語の出現する文脈の類似度を併用して行う方法を提案している。この方法によって、新聞記事38年分のコーパスから得たカタカナ語の異表記を高い精度で認識することに成功した。第5章は提案手法の実験的評価であり、これまでに例がなかった新聞記事38年分という大規模実データを用いた実験で再現率91.5%、適合率91.7%という結果を示している。これは、既存のワープロや検索エンジンの提供している表記の揺れの訂正機能にくらべてはるかに高い性能であり実用性があることが分かった。第6章は、抽出した映画評論のテキストにカタカナ異表記を応用し、映画ジャンルへの文書分類を行った。この実験においても精度の向上を確認している。第7章はまとめである。

 提案した方法は、従来、自然言語処理研究者が人手で行っていた異表記ペナルティの開発および言語学者などが人手で構築していたカタカナ異表記収集の作業を、属人性を排した自動的な方法に改善することに成功しており、今後のカタカナ語の増大にも機動的に対応できる優れた手法である。

 これらの研究に関して、申請者は、査読ジャーナル論文、国際会議論文などで発表を行い、高い評価を受けている。

 したがって、本審査委員会は博士(学術)の学位を授与するにふさわしいものと認定する。

UTokyo Repositoryリンク