学位論文要旨



No 213575
著者(漢字) 福本,文代
著者(英字)
著者(カナ) フクモト,フミヨ
標題(和) 構文・意味的曖昧性解消のためのコーパスに基づく手法とその応用に関する研究
標題(洋) A Study on Corpus-based Techniques for Syntactic and Semautic Awbiguity Resolution and Their Application
報告番号 213575
報告番号 乙13575
学位授与日 1997.10.27
学位種別 論文博士
学位種類 博士(理学)
学位記番号 第13575号
研究科
専攻
論文審査委員 主査: 東京大学 教授 辻井,潤一
 東京大学 教授 萩谷,昌己
 東京大学 教授 高木,利久
 奈良先端科学技術大学院大学 教授 松本,裕治
 東京工業大学 助教授 徳永,健伸
内容要旨

 自然言語処理における重要な問題の一つに,形態・構文・意味・語用論といった言語に関する様々な曖昧性の問題がある.本論文では,曖昧性の問題として文解析において顕著に現れる構文的な曖昧性と意味的な曖昧性に注目し,コーパスを用いてこれらの曖昧性を解消する手法を提案する.さらに,解消結果を情報検索の分野に適用することで曖昧性の解消が有効であることを示す.

 構文的な曖昧性は,語間の係り受け関係が一意に決まらず,解が複数得られてしまう場合に生じる.本論文では構文的な曖昧性として,「日本語の係り受け構造」と「前置詞句の係り先」の問題を取り上げる.日本語の係り受け構造では,コーパスベースの必要性を動機づけるためルールベースを用いて解消する手法を示し,その有効性と限界について論じる.

 日本語の解析において係り受け関係を対象とした研究は,日本語にはその語順に特に強い制約が存在しないことから従来より数多く行なわれている.一般に一文を対象とした構文レベルでの係り受け関係の決定を考慮した場合,従来から提案されている手法の多くは,係り受け関係を判定するための言語的な制約として,格情報などを中心とした任意の2要素間の局所的な情報を用いている.しかしこれら局所的な情報だけでは,文全体の構造を決定するための統語制約として不十分であり,結果的に,可能な解釈として不自然なものまで得られてしまう.文全体の構造を反映させた構文情報が必要である.

 本論文では言語的な制約として,係り受けの強度に基づく制約について述べる.この制約は,文節とアークに付与された係り受けの強度を用いて2文節間の係り受け関係の有無を判定するものである.ここで,文節に関する係り受けの強度とは,その文節が修飾することができる相手の文節の種類,およびその文節が修飾を受けることができる相手の文節の種類を分類し,それぞれ係り,受けの強さの度合いとして表したものである.また,アークに関する.係り受けの強度とは,文節同士の結びつきの強さの度合いを示したもので,これを用いて依存構造に現われるアーク間の制約を表している.係り受け関係の判定に意味素性を用いた文法と,この文法に係り受けの強度に基づく制約を加えた文法とを作成し,文解析実験を行った結果,解の数はこの制約を加えることで,約2割に抑えられていることがわかった.しかし,係り受けの強度を用いても解は一意に決まらず,10文節あたり平均10通りの解が得られた.係り受けの強度は文の構造を制約として反映しているため選択制限などと比較すると強い制約である反面,文の表層情報より得られる情報である.従って意味を考慮しないと係り先が決定できないような係り受け関係には貢献しない.しかし,一般に意味的な知識を記述するには非常な労力を要し,また,分野が変わるとそれに応じて意味的な知識も変わるため,ルールベースの手法を用いて網羅的に記述しておくことは難しい.

 「前置詞句の係り先」では,「日本語の係り受け構造」で述べた限界に対処するため,品詞付けされたコーパスから統計手法を用いて係り受け構造を抽出した結果を利用し曖昧性を解消する手法を提案する.具体的には前置詞句の係り先の曖昧性に注目する.すなわち,前置詞句を含む3語対に対し,語間の結び付きの強さを求め,これを用いて係り先の曖昧性を解消する手法を提案する.3語対の結び付きの強さに基づき前置詞句の係り先の決定を行なう場合,データスパースネスの問題が2語の共起関係と比べてより顕著に現れる.この問題に対処する方法としてスムーシング手法と呼ばれる手法がある.これは,解消を行なおうとする語がデータ中に存在しない場合,その語と最も意味的に近い語を推定し,推定された語を用いて解消を行なうという手法である.本論文では,頻度数が少ないために3語の結び付きの強さを付与することができない語に対しては,3語対を対象としたスムーシング手法を提案することでそれと意味的に近い語を推定する.前置詞として’for’,’in’,’with’を含む300文を用いた実験では,平均70.1%の正解率が得られた.

 構文的な曖昧性が解消できても文の意味が一意に決まるわけではなく,意味的な曖昧性が依然として存在する.一般に文の形態あるいは構文に関する情報は文の表層を手がかりとして得ることができるため,比較的よく検討され,知識として体系化されている.一方,語の意味的な曖昧性を解消するためには,意味に関するさまざまな知識を記述しておく必要がある.しかし,意味的な情報を考慮した場合,語の意味は分野が変わると異なる意味を持つため,あらゆる分野に応じて語それぞれが持ち得るすべての意味を予め規則として網羅的に記述しておくことは難しい.そこで,語の意味的な曖昧性を解消するためには,解消手法と同時に分野に依存した知識をどのように獲得するかが重要となる.

 本論文では意味的な曖昧性として,「動詞語義の曖昧性」と「名詞語義の曖昧性」の問題を扱う.動詞語義の曖昧性では,単一言語コーパスから抽出した多義語の情報を利用し,文中に含まれる語義の曖昧性を解消する手法を提案する.先ず,多義語の判定を行なうため,クラスタリングの観点から多義語を定義し,語の意味的なまとまりのよさを計算する式を示す.次にこの式を用いてコーパスから自動的に多義語を判定するためのアルゴリズムについて述べる.さらに得られた多義の情報を基に,文中に含まれる語義の曖昧性を解消する手法を提案する.実験の結果,コーパス中に高頻度で出現する動詞について本手法は有効であることが検証できた.一方,一般に動詞に比べ,名詞はコーパス中に現れる異なり数が多い反面,一名詞の頻度数は動詞ほど多く出現しない.従って,動詞語義の曖昧性解消で提案した手法は,名詞の語義解消には適さない.

 名詞語義の解消では単一言語コーパスと辞書を用いて名詞が持つ意味を判定する手法を紹介する.これはコーパス中の多義を含む一定長の単語列と辞書中の語義文との類似度を計算し,その値が最も大きい語義文をその多義が持つ語の意味とする手法である.実験の結果,3,608個の名詞に対し2,870個の正解が得られ,正解率は78.4%であることが検証できた.動詞と名詞の語義の問題を通して語の意味的な解消という点では同じ問題であるにもかかわらず,なぜ互いに異なる手法を用いたのか,そしてそれぞれが各々の問題について有効な手法であることを示すために,名詞語義の解消手法を動詞語義の実験で用いた14の動詞に適用した.その結果,正解率は50.2%であった.このことから,単一言語コーパスと辞書を用いた名詞多義の解消法は動詞の多義解消には適さないこと,語の性質により解消方法を使い分ける必要があることを論じる.

 最後に曖昧性解消結果の一つの応用として,解消結果が何の役に立つのかを示すため,情報検索の分野に適用する.具体的には,名詞の多義解消結果を「文書の自動分類」と「重要パラグラフの自動抽出」に適用することで曖昧性の解消結果が各手法に貢献することを示す.

審査要旨

 本論文では,曖昧性の問題として文解析において顕著に現れる構文的な曖昧性と意味的な曖昧性に注目し,コーパスを用いてこれらの曖昧性を解消する手法を提案している.さらに,解消結果を情報検索の分野に適用することで曖昧性の解消が有効であることが示されている.

 本論文は8章からなり,第1章は,曖昧性解消に関する従来の手法について触れ,本論文の位置付け,及び目的を明らかにしている.第2章は,本研究で取り上げる曖昧性の問題,及び情報検索の分野に関する関連研究について述べている.

 第3章では,「日本語の係り受け構造」の問題に注目し,言語的な制約として,係り受けの強度に基づく制約を提案している.実験では,係り受け関係の判定に意味素性を用いた文法と,この文法に係り受けの強度に基づく制約を加えた文法とを作成し,文解析実験を行った結果,解の数はこの制約を加えることで,約2割に抑えられていることが報告されている.しかし,係り受けの強度を用いても解は一意に決まらず,10文節あたり平均10通りの解が得られていることからルールベースによる有効性と限界について言及している.

 第4章では「前置詞句の係り先」に注目し,「日本語の係り受け構造」で述べた限界に対処するため,品詞付けされたコーパスから統計手法を用いて係り受け構造を抽出した結果を利用し曖昧性を解消する手法を提案している.3語対の結び付きの強さに基づき前置詞句の係り先の決定を行なう場合,データスパースネスの問題が2語の共起関係と比べてより顕著に現れる.本論文では,頻度数が少ないために3語の結び付きの強さを付与することができない語に対しては,3語対を対象としたスムーシング手法を提案することでそれと意味的に近い語を推定している.前置詞として’for’,’in’,’with’を含む300文を用いた実験では,平均70.1%の正解率が得られることが報告されている.

 構文的な曖昧性が解消できても文の意味が一意に決まるわけではなく,意味的な曖昧性が依然として存在する.第5章では動詞語義の曖昧性に注目し,単一言語コーパスから抽出した多義語の情報を利用し,文中に含まれる語義の曖昧性を解消する手法を提案している.先ず,多義語の判定を行なうため,クラスタリングの観点から多義語を定義している.次に,語の意味的なまとまりのよさを計算する式を示し,この式を用いてコーパスから自動的に多義語を判定するためのアルゴリズムについて述べている.さらに得られた多義の情報を基に,文中に含まれる語義の暖昧性を解消する手法を提案している.実験の結果,コーパス中に高頻度で出現する動詞について本手法は有効であることが報告されている.一方,一般に動詞に比べ,名詞はコーパス中に現れる異なり数が多い反面,一名詞の頻度数は動詞ほど多く出現しない.従って,動詞語義の曖昧性解消で提案した手法は,名詞の語義解消には適さないことが論じられている.

 第6章では名詞語義に注目し,単一言語コーパスと辞書を用いて名詞が持つ意味を判定する手法を紹介している.これはコーパス中の多義を含む一定長の単語列と辞書中の語義文との類似度を計算し,その値が最も大きい語義文をその多義が持つ語の意味とする手法である.実験を通して、単一言語コーパスと辞書を用いた名詞多義の解消法は動詞の多義解消には適さないこと,語の性質により解消方法を使い分ける必要があることが論じられている.

 第7章では曖昧性解消結果の一つの応用として,解消結果が何の役に立つのかを示すため,情報検索の分野に適用した結果が述べられている.具体的には,名詞の多義解消結果を「文書の自動分類」と「重要パラグラフの自動抽出」に適用することで曖昧性の解消結果が各手法に貢献することが示されている.終章で,まとめと今後の課題について言及している.

 なお,本論文第3章は,佐野洋氏,斎藤葉子氏,福本淳一氏,第4章は,福本淳一氏,第5章は辻井潤一氏,第7章は鈴木良弥氏,福本淳一氏との共同研究であるが,論文提出者が主体となって分析及び検証を行なったもので,論文提出者の寄与が十分であると判断する.

 したがって,博士(理学)を授与できると認める.

UTokyo Repositoryリンク