学位論文要旨



No 110933
著者(漢字) 渕,武志
著者(英字)
著者(カナ) フチ,タケシ
標題(和) 日本語形態素構文解析のための新手法及び含意導出規則の定式化
標題(洋)
報告番号 110933
報告番号 甲10933
学位授与日 1995.03.29
学位種別 課程博士
学位種類 博士(理学)
学位記番号 博理第2846号
研究科 理学系研究科
専攻 情報科学専攻
論文審査委員 主査: 東京大学 助教授 坂村,健
 東京大学 教授 小柳,義夫
 東京大学 助教授 今井,浩
 東京大学 助教授 萩谷,昌己
 奈良先端科学技術大学院大学 教授 松本,裕治
内容要旨

 計算機による日本語処理に関する最近の知見の集積にはめざましいものがあるが、形態素解析や構文解析といった基本的な技術に関しても未だに十分な精度が得られておらず、種々のアプローチによる研究が必要な段階である。形態素解析に関しては、その動作に関するアルゴリズムが幾つか提案され、実装されている。そこで用いられた日本語の形態に関する規則はこれまでに言語学の分野から提出されてきたものであった。しかし、そうした規則は特に述語の語尾変化に対して不完全なものであり、また、言語現象を細部にわたって説明しようとする目的のものであったため、計算機で日本語を処理するという視点からはバランスを欠いたものであった。そこで本研究では、語尾変化に対して妥当性の高い派生文法を基に計算機処理に適した日本語形態素規則を開発し、実装した。派生文法では日本語文字を母音と子音に分け、活用の概念を用いずに述語の語尾変化を説明することに成功していた。本研究ではこれを日本語の文字単位で処理できる形に変換する方法を発見した。その結果、従来の活用の概念と同様な形になることが分かり、懸案であった活用の種類の選定について明確な解答を与えることができた。また、新しい語尾に対応する形態素を追加することが非常に簡単にたり、口語的な表現も含む語尾の形態素辞書を充実させることができた。これによって新聞記事に対する形態素解析処理のエラー率は形態素数に対して約0.15%となった。これは従来の形態素解析処理システムに比べて10分の1以下のエラー率である。

 構文解析は、様々な文法記述法が提案され、その効率的な処理方法が開発されてきた。しかし、日本語においては構文文法を明示的に記述することには重点が置かれておらず、ほとんどの構文解析システムでは文法はプログラムの中に手続き的に表現され、独立して記述されていなかったため、文法自身を議論の対象にすることができなかった。文法が独立して記述された場合でも、文法に対する詳細な説明が無く、検証も難しかった。そこで、本論文ではDCG(Definite Clause Grammar)によって、適用範囲の広い実用的な日本語構文文法を記述し、詳細な説明を加えた。本文法の特徴は、読点の情報の適切な利用、重複解の削除、係り受けの距離に対する制約などをDCGの範囲内で実現している点である。また、この文法は一般に入手可能な構文解析処理系によって動作させることができ、検証が容易である。この文法を用いて実際の新聞記事中の文を解析させた結果、一文に対して出力される解の候補の数は平均5.8個であり、その中に正解が含まれる率は98%であった。

 品詞のみの情報を用いる構文解析では、正解率の向上に限界があり、この壁を越えるためには単語毎の情報を用いる必要がある。二語間共起データ(係り文字、係り側の語、受け側の語の三つ組みデータ)はそのような情報の一つである。二語間共起データは計算機可読の文章から自動的に抽出することが可能であるため、大量に用意することができる。実際に本研究中で開発された日本語解析システムを用いて抽出した結果、正しい二語間共起を抽出する確率は98%であり、1年分の新聞記事から約260万組の二語間共起データを抽出できた。これを用いて構文解析の解の絞り込みの実験を行ったが、単純に係り受けの距離が短いものを解とする場合に比べて、約1%の性能向上に留まり、ほとんど効果がなかった。そこで、観測される二語間共起データに対してポアソン過程を仮定し、必要なデータ量の推定を行ったところ、少なくとも10年分の新聞記事テキストが必要なことが分かった。

 発話の含意に関する研究では、これまで、含意の発生を説明する原理原則の解明や、含意を計算するための機構の開発に力が注がれて来た。しかし、実際の含意を導く状況の形式的な記述や、それらから含意を導くための規則の定式化に関してはほとんど試みがみられない。そこで本研究では、含意の算出に影響を与える以下の7つの要素を提案し、これらに形式的な表現を与えた。

 ・発話の内容と文脈との関連性

 ・発話の内容に対する対話参加者の知識

 ・発話の内容に対する対話参加者の利害

 ・発話の内容に対する対話参加者の評価

 ・対話参加者の上下関係

 ・対話参加者の友好関係

 ・発話の語調

 さらに、こられから含意を導くための以下の規則を提案し、定式化した。

 ・暗黙無知規則:協調的な状況で、発話しなかった情報を話し手が知っているという合意がないならば、話し手はそれを知らない。

 ・とぼけ規則:協調的な状況で、発話しなかった情報を話し手が知っているという合意があり、その命題が話し手に不利で不愉快な事柄であるならば、その命題は肯定される。

 ・てれ規則:協調的な状況で、発話しなかった情報を話し手が知っているという合意があり、その命題が話し手に有利な事柄であるならば、その命題は肯定される。

 ・気遣い規則:協調的な状況で、発話しなかった情報を話し手が知っているという合意があり、その命題が聞き手に不利な事柄であるならば、その命題は肯定される。

 ・暗黙否定規則:協調的な状況で、発話しなかった情報を話し手が知っているという合意があり、発話しなかった命題に利害関係が無いならば、その命題は否定される。

 ・不愉快規則:協調的な状況で、発話しなかった情報を話し手が知っているという合意があり、発話しなかった命題に利害関係が無く、暗黙否定規則によって相反する命題が得られるならば、何らかの明らかでない理由により話し手はその命題について不愉快であり、真偽を伝えたくない。

審査要旨

 本論文は6章からなり、第1章は研究の背景と成果について、第2章は形態素解析処理、第3章は構文解析処理、第4章は語の共起データの効果、第5章は含意導出規則について述べられており、第6章は全体のまとめである。

 計算機による日本語処理に関する最近の知見の集積にはめざましいものがあるが、形態素解析や構文解析といった基本的な技術に関しても未だに十分な精度が得られておらず、種々のアプローチによる研究が必要な段階である。第2章で述べられている形態素解析に関しては、従来からその動作に関するアルゴリズムが幾つか提案され、実装されている。そして、それらに用いられている日本語の形態に関する規則は、言語学分野から提出され一般的に普及している日本語の文法を用いるものであった。しかし、それらの文法は特に述語の語尾変化に対して不完全なものであり、また、言語現象を細部にわたって説明しようとする目的のものであったため、計算機で日本語を処理するという視点からはバランスを欠いたものであった。それに対し本論文では、語尾変化に対して妥当性の高い派生文法を基に計算機処理に適した日本語形態素文法を開発し、実装している。派生文法では日本語文字を母音と子音に分け、活用の概念を用いずに述語の語尾変化を説明することに成功していた。本論文ではこれを日本語の文字単位で処理できる形に変換する方法を発見している。その結果、形としては従来の活用の概念と同様な形になり、従来の活用の概念を用いて作られている形態素解析の処理系にも適用できることを明らかにしている。しかも、述語の語尾変化に対する完全な体系を背後に持つため、懸案であった活用の種類の選定について明確な解答を与えることができている。また、新しい語尾に対応する形態素を追加することが非常に簡単になり、口語的な表現も含む語尾の形態素辞書を充実させることができている。

 第3章で述べられている構文解析は、従来、様々な文法記述法が提案され、その効率的な処理方法が開発されてきた。しかし、日本語においては構文文法を明示的に記述することには重点が置かれておらず、ほとんどの構文解析システムでは文法はプログラムの中に手続き的に表現され、独立して記述されていなかった。そのため、文法自身を議論の対象にすることが困難であった。それに対し、本論文では確定節文法によって大規模な日本語構文文法を実際に記述し、詳細な説明を加えている。これによって日本語文法記述の具体例の一つとして、自然言語研究の研究者にとって有益なものとなっている。

 第4章で述べられている共起データは、係り文字、係り側の語、受け側の語の三つ組みデータである。この共起データは品詞のみの情報を用いる構文解析の限界を越えるために必要な情報の一つと言われているが、実際にどの程度の効果があるのかは不明であった。本論文では共起データを計算機可読の文章から自動的に抽出するシステムを開発し、実際に400万個程度の共起データを用いて、これが構文上の曖昧性の解消にどの程度の効果があるかを測定している。測定した結果は、実験に用いた規模の共起データでは効果がないことを示しており、さらに多くの共起データを用いて実験する必要性のあることを示唆している。

 第5章で述べられている発話の含意に関しては、従来の研究では含意の発生を説明する原理原則の解明や、含意を計算するための機構の開発に力が注がれて来た。しかし、実際の含意を導く状況の形式的な記述や、それらから含意を導くための規則の定式化に関してはほとんど試みがみられない。これに対し、本論文では、含意の算出に影響を与える7つの要素を具体的に提案し、それらに形式的な表現を与えている。さらに、それらから含意を導くための6つの規則を提案し、定式化している。

 なお、本論文は全て米澤明憲氏との共同研究であるが、論文提出者が主体となって分析及び検証を行ったもので、論文提出者の寄与は十分であると判断する。

UTokyo Repositoryリンク