計算機による日本語処理に関する最近の知見の集積にはめざましいものがあるが、形態素解析や構文解析といった基本的な技術に関しても未だに十分な精度が得られておらず、種々のアプローチによる研究が必要な段階である。形態素解析に関しては、その動作に関するアルゴリズムが幾つか提案され、実装されている。そこで用いられた日本語の形態に関する規則はこれまでに言語学の分野から提出されてきたものであった。しかし、そうした規則は特に述語の語尾変化に対して不完全なものであり、また、言語現象を細部にわたって説明しようとする目的のものであったため、計算機で日本語を処理するという視点からはバランスを欠いたものであった。そこで本研究では、語尾変化に対して妥当性の高い派生文法を基に計算機処理に適した日本語形態素規則を開発し、実装した。派生文法では日本語文字を母音と子音に分け、活用の概念を用いずに述語の語尾変化を説明することに成功していた。本研究ではこれを日本語の文字単位で処理できる形に変換する方法を発見した。その結果、従来の活用の概念と同様な形になることが分かり、懸案であった活用の種類の選定について明確な解答を与えることができた。また、新しい語尾に対応する形態素を追加することが非常に簡単にたり、口語的な表現も含む語尾の形態素辞書を充実させることができた。これによって新聞記事に対する形態素解析処理のエラー率は形態素数に対して約0.15%となった。これは従来の形態素解析処理システムに比べて10分の1以下のエラー率である。 構文解析は、様々な文法記述法が提案され、その効率的な処理方法が開発されてきた。しかし、日本語においては構文文法を明示的に記述することには重点が置かれておらず、ほとんどの構文解析システムでは文法はプログラムの中に手続き的に表現され、独立して記述されていなかったため、文法自身を議論の対象にすることができなかった。文法が独立して記述された場合でも、文法に対する詳細な説明が無く、検証も難しかった。そこで、本論文ではDCG(Definite Clause Grammar)によって、適用範囲の広い実用的な日本語構文文法を記述し、詳細な説明を加えた。本文法の特徴は、読点の情報の適切な利用、重複解の削除、係り受けの距離に対する制約などをDCGの範囲内で実現している点である。また、この文法は一般に入手可能な構文解析処理系によって動作させることができ、検証が容易である。この文法を用いて実際の新聞記事中の文を解析させた結果、一文に対して出力される解の候補の数は平均5.8個であり、その中に正解が含まれる率は98%であった。 品詞のみの情報を用いる構文解析では、正解率の向上に限界があり、この壁を越えるためには単語毎の情報を用いる必要がある。二語間共起データ(係り文字、係り側の語、受け側の語の三つ組みデータ)はそのような情報の一つである。二語間共起データは計算機可読の文章から自動的に抽出することが可能であるため、大量に用意することができる。実際に本研究中で開発された日本語解析システムを用いて抽出した結果、正しい二語間共起を抽出する確率は98%であり、1年分の新聞記事から約260万組の二語間共起データを抽出できた。これを用いて構文解析の解の絞り込みの実験を行ったが、単純に係り受けの距離が短いものを解とする場合に比べて、約1%の性能向上に留まり、ほとんど効果がなかった。そこで、観測される二語間共起データに対してポアソン過程を仮定し、必要なデータ量の推定を行ったところ、少なくとも10年分の新聞記事テキストが必要なことが分かった。 発話の含意に関する研究では、これまで、含意の発生を説明する原理原則の解明や、含意を計算するための機構の開発に力が注がれて来た。しかし、実際の含意を導く状況の形式的な記述や、それらから含意を導くための規則の定式化に関してはほとんど試みがみられない。そこで本研究では、含意の算出に影響を与える以下の7つの要素を提案し、これらに形式的な表現を与えた。 ・発話の内容と文脈との関連性 ・発話の内容に対する対話参加者の知識 ・発話の内容に対する対話参加者の利害 ・発話の内容に対する対話参加者の評価 ・対話参加者の上下関係 ・対話参加者の友好関係 ・発話の語調 さらに、こられから含意を導くための以下の規則を提案し、定式化した。 ・暗黙無知規則:協調的な状況で、発話しなかった情報を話し手が知っているという合意がないならば、話し手はそれを知らない。 ・とぼけ規則:協調的な状況で、発話しなかった情報を話し手が知っているという合意があり、その命題が話し手に不利で不愉快な事柄であるならば、その命題は肯定される。 ・てれ規則:協調的な状況で、発話しなかった情報を話し手が知っているという合意があり、その命題が話し手に有利な事柄であるならば、その命題は肯定される。 ・気遣い規則:協調的な状況で、発話しなかった情報を話し手が知っているという合意があり、その命題が聞き手に不利な事柄であるならば、その命題は肯定される。 ・暗黙否定規則:協調的な状況で、発話しなかった情報を話し手が知っているという合意があり、発話しなかった命題に利害関係が無いならば、その命題は否定される。 ・不愉快規則:協調的な状況で、発話しなかった情報を話し手が知っているという合意があり、発話しなかった命題に利害関係が無く、暗黙否定規則によって相反する命題が得られるならば、何らかの明らかでない理由により話し手はその命題について不愉快であり、真偽を伝えたくない。 |