学位論文要旨



No 111206
著者(漢字) 角田,達彦
著者(英字)
著者(カナ) ツノダ,タツヒコ
標題(和) 場面解析に基づく文脈依存自然言語処理
標題(洋) Context-Dependent Natural Language Processing Based on Scene Analysis
報告番号 111206
報告番号 甲11206
学位授与日 1995.03.29
学位種別 課程博士
学位種類 博士(工学)
学位記番号 博工第3450号
研究科 工学系研究科
専攻 情報工学専攻
論文審査委員 主査: 東京大学 教授 田中,英彦
 東京大学 教授 井上,博允
 東京大学 教授 武市,正人
 東京大学 教授 大須賀,節雄
 東京大学 教授 廣瀬,啓吉
内容要旨

 本研究は、物語文などを対象とした機械翻訳システムに代表される自然言語処理に、場面の解析とそれに基づく文脈処理を導入する方法をモデル化し、工学的に実現することを目的としている。特に人間が日常行なっているテキストの読みの過程に基づいて、効率的かつ精度の良い機械翻訳システムを工学的に実現するという立場をとる。

 自然言語の状況依存性は広く認められ、工学のみならず言語学や心埋学においても古くから研究されている問題であるが、事象の複雑さのために、状況依存性あるいは文脈情報そのものの内容にまで踏み込んで研究かれた例は未だ少ない。また工学的な実現可能性については、限定された分野における照応解決など、多くの知識を必要としない問題に用いられている程度で、文脈情報を扱った拡張性のあるシステムはほとんど見られない。自然言語処理システムを構築する際に一般に問題になることは曖昧性である。自然言語は何らかの共有知識を持つ人と人との間の情報伝達手段であるため、時間節約のために共有知識を利用した簡潔な言語表現をとることがほとんどである。このような言語の効率性とトレードオフの関係にあるものが自然言語のもつ曖昧性であり、同音性、多義性、省略、照応などの形をとって言語表層に現れる。これらの曖昧性は同時に複数生じることが多いため、伝達されるべき本来の意味を曖昧性なしに見つける為には、探索空間の爆発の問題と、解の絞り込みが難しいという問題を解決する必要がある。このため文脈情報を用いて解を絞り込むことは、正しい解を効率的に探索する為に不可欠である。文脈情報を陽に扱った例はスクリプトなどの認知科学的なアプローチや、談話解析などの言語学的なアプローチに見られるが、知識表現の提案に留まり、実文に対して頑健性のある具体的な処理方法やそれに必要な知識内容の分類、および獲得方法については未だ提案がなされていない。また文脈情報を陽に表現して扱うことをせず、統計的な手法や事例に基づく手法を用いている例も見られるが、実際の文に存在する現象の複雑さに対処する手法が未解決であるのが現状である。これに対し本研究においては、自然言語における文脈情報の役割と処理方法に基づいて分類を行ない、その文脈情報の一部として場面情報を扱う。

 言語活動は人間活動のほとんどの側面を基に成り立つために、機械翻訳に際しても言語内知識および言語外知識のどちらも適切な処理方法によって扱う必要がある。言語内知識とその処理方法に関しては形となって存在するものであるため、扱いやすく、現在までにかなりの進展が見られている。しかし人間が伝達を行なおうとする対象はむしろ言語外知識であり,さらに人間は言語外知識を共有知識とし、それを前提とした効率的な処理を行なうため、現状のような言語内知識のみを扱うシステムでは正しく解けない曖昧性が存在するし、また曖昧性の解消が非効率的であるという2重の問題が発生している。言語外知識の扱いは意味情報も含めて、本来形があるものではなく、定義および処理の困難さのために避けられてきたという側面を持っている。この言語外知識の扱いの困難さは、すべての言語現象を一度に一つの枠組で扱おうとする点から生じると思われる。本研究では言語外知識をあえて扱い、そのサブゴールの一つとして場面をとりあげている。視覚情報に基づく場面は人間の思考では最も第一義的に扱われ、情報伝達の過程では逆に最も前提とされ省略されやすいものである。本来ならば人間の行なっている過程と同様に動的な画像情報を外界より獲得し、知識を構築するところであるが、一般にはその処理は効率が悪く、また場面の客観的な定義が困難である。そこでここではそのような場面情報の第一近似としての知識源として市販されている視覚辞書(OXFORD-DUDEN Pictorial English Dictionary)を用いている。また語義をRogetのシソーラスを用いて定義し、その分類の細かさに応じて上の視覚辞書の情報と組み合わせて3種類の知識表現による場面情報を形成するそれらの情報を場面同定および多義性解消に適宜適用することによって談話解折に基づく文脈依存の語義曖昧性問題を解決する。

 図1に提案する手法を用いた全体の処理の流れとアーキテクチャを示す。通常の自然言語処理システムと異なる点は、談話構造を抽出することによって場面を特定し、その場面を用いて現在処理の対象にしている文と、その次の文に出現する単語に対して尤度計算による優先づけを行なうモジュールが付加されている点である。曖昧性解消の中でも特に単語の語義に着目し、視覚情報に基づく物理的場面による文脈を決定した場合の語義の推定を行なう。語義の推定に際しては、文脈に応じて予め表にして持つ場合と持たない場合がある。表に対象とする単語があった場合にはその語義を示し(記号的)、なかった場合には予め定義された状況に応じた意味分布から語義を推定する(統計的連想)。

 また文脈を決定することを談話構造解析の枠組でとらえ直し、ここでは特に場面を同定することに焦点を絞る。そのアルゴリズムを図2に示す。すべての文を解析し、場面の入場検出、場面入場時の焦点である主語の検出、場面と焦点を組合せスタックに積みスタックを更新する部分、焦点スタックによる場面同定、場面退出検出を行なう。場面は格解析の結果や会話文などの手がかりを用いて明示的に指定される場合、焦点の位置から特定される場合、そして前後の語の意義のつながり(語彙的結束性)から推定される場合がある。明示的な場面情報や焦点の位置から場面を特定する場合には、記号的処理を用いる。また語彙的結束性から場面を特定する場合には、統計的な処理を行なう連想記憶を用いることにより、前後の単語の組合せから場面を推定する。談話構造の解析に際しては結束構造からつながりを直接見い出す方法とともに各文の焦点解析に基づく位置の特定方法、および連想に基づく語彙的結束性による場面の特定方法を組合せ、場面の切り出し、継続の判断を行なうシステムである。そしてこれらのモジュールを実装することにより、実際の物語文を解析するシステムを作成した。

 語義の曖昧性解消の評価に際し、赤毛のアンを対象文とし、台所に現れる単語341個を解析した結果、図3のように、辞書から構成した場面を用いることにより、正しい語義に至るまでのバックトラック数が有意に減少していることがわかる。全体を平均した結果はバックトラック数が2.71から1.71まで減少するため、全体の処理速度が58%以上速くなることがわかる。またこのうちの37単語を含む27文をパーザに実装し解析した結果の多義性解消率の様子を表2に示す。機械翻訳システムと同様に文単位での正解率を求めた場合と、文とは独立に各単語に対して評価した場合の両方を、第一候補での正解率、第二候補までの正解率を求め、どの場合においても、場面情報を用いた場合に用いなかった場合に比べ有意に正解率が上昇することが明らかになった。

 場面同定に関しては赤毛のアンの台所の場面を含む309段落を解析し、事例の分類による知識の整理を行なった。またそのうち133段落についての知識をパーザ上にアルゴリズムとして実装し、評価を行なった結果、図1のような結果が得られた。同定に失敗した場合の主な原因は格解析の結果からさらに常識などの深い推論と知識を必要とするものが多く、今後検討すべき課題である。実装に際して用いた知識は会話移行検出や焦点スタック更新のためのルール、移動動詞を検出するための辞書であり、今後の知識獲得の方向性について検討を行なった。

審査要旨

 本論文は、「Context-dependent Natural Language Processing Based on Scene Analysis(場面解析に基づく文脈依存自然言語処理)」と題し、英語で書かれ9章と付録からなる。自動翻訳の品質を高めるためには、文章を個別に変換するだけでは不足で、文章の深い理解が必要である。しかし、文章の意味を、コンピュータ等で形式的に取り扱うことは非常に難しい問題である。その理由の一つは、文の意味理解には、その文が暗黙の内に設定している場面等の状況理解と深く絡み合っているということがある。本論文は、そのような機構を解明し、より深い形式的な意味理解を可能にすることを目的として、英語を対象にその自然言語処理を論じたものである。

 第1章「Introduction」では、本研究の背景と目的について述べ、さらに本論文の研究の特徴をまとめている。

 第2章[Ambiguity Problems and Semantic Disambiguation」は、まず、幾つかの例文を基に、その解釈が文の置かれた文脈に依存していることを示すことによって、文脈を扱うことの必要性を述べ、次に自然言語処理に於ける曖昧性を、構文上の曖昧性、単語の意味の曖昧性、場合の曖昧性、参照上の曖昧性等、12に分けて論じ、Rogetのシソーラスを基にそれら相互の関連について述べ、曖昧性解消問題は、これらの制約充足問題であることを示している。

 第3章[Related Works on Context-dependent Natural Language Processing」は、文脈依存の自然言語処理研究をサーベイし、それには従来二種類のものがあり、一つは伝統的な自然言語処理システムに、文脈処理と直観理解のモジュールを付加する行き方で一般的な物語理解を目指すもの、もう一つは、精密に自然言語の文法を構成する代わりに、多量の例文を集めて統計に解析しておき、解析すべき文章の回りに出現する単語との関連からその文に近い例文を探し間接的に文脈依存処理を行なうものであるが、本論文で用いる手法は前者に属するもので、文脈処理と辞書知識を用い、自然言語処理に言語学や心理学のフレームワークを導入するものであることを述べている。

 第4章「Context-dependent Processing based on Scene Analysis」では、最初に、知識の文脈を連想と知識源に基づいて4種類に分類し、その内のドメイン知識を更に4種類に分け、本論文ではその内の「場所的な連想を司る知識」に限定して考察すること、また場面がその代表的な知識であるが、その場面の中でも抽象的な場面ではなく具象的な場面を扱うことを述べている。次に、例文に基づいて場面情報から単語の意味の曖昧性を解消する手法について述べ、場面を同定する方法を考察し、それには主人公と対象物等、焦点の同定と、焦点の場所の同定とが必要であることを明らかにしている。場面情報については、Oxford-Duden Pictorical English Dictionaryを用いることにし、それから場面辞書のデータベースを作成している。それは、合計27,500単語からなる辞書で、場面は384種類存在し、それらは平均184単語/場面からなる。

 第5章「Knowledge Representation of Spatial Scene and Context-dependent Processing Algorithm」は、前章までの設定に基づいて構成したシステムで用いる知識表現と手法のアルゴリズムについて述べている。すなわち、単語の意味については、Roget 5th ed.International Thesaurusで与えられるものとし、単語の意味を同定することは、そのシソーラス内でその単語に対して与えられているカテゴリ分類一例えば"table"に対しては、16個の名詞と3個の動詞のカテゴリがある一を定めることであるとしている。場面の知識表現には、単語のフレーム表現と、単語の意味表、各単語に対応する場面の出現頻度分布を用いている。次に、単語の曖昧性解消のアルゴリズムの詳細について述べ、更に場面同定アルゴリズムについて述べている。場面の同定では、場面が時間とともに変わって行く状況を適切に扱うために、現在焦点が当てられている情報をスタックに入れて扱うという機構を準備しており、会話の中から焦点を検出する機構を設け、辞書上の関連に基づいて場面を同定している。

 第6章は、「Implementation of System Modules」で、システムの要素モジュールの実装について述べたもので、構文解析モジュール、発話要素のタグ付けモジュール、単語の意味順序付けモジュール、意味同定モジュールの実装について論じている。

 第7章「Performance Evaluation n Real Texts from Narrative Story」は、ここで提案しているシステムを、恣意的でない実際の文章-ここでは、小説Anne of Green Gables-を用いて評価を行なっている。まず、単語の意味順序付け機構については、その小説で現れる単語がもともと持っている曖昧性が、この機構を通すことによって、曖昧性がかなり少なくなっていることを頻度分布により示している。場面同定については、この小説内でkitchenに関する段落309を調べているが、場所が明示的に示されているのが全体の50%、示されていないがこの機構で正しく補え得たのが30%、残りの20%は非常に複雑で解析不可能な場合であった。場面辞書の解析結果からは、一つの場面を90%精度で同定するためには平均5単語必要である。また、この曖昧性解消機構により、文章の解析効率が著しく向上することを定量的に示している。

 第8章「Discussion and Directions for Further Research」は、ここで提案しているシステムについて考察を行なったもので、連想を用いた推論と論理的な推論との利害得失、名詞と動詞の結合確率を用いることによる性能改善、非単調論理の利用、場面のネスト関係などを議論するとともに、将来の間題について考察している。

 第9章「Conclusions」は、結論である。

 以上、これを要するに本論文は、自然言語処理を高度化するためのステップとして、文章の理解に場面の解釈を導入する手法を提案し、その有効性を実際の小説を例題として定量的に立証したもので、情報工学上貢献する所少なくない。

 よって、著者は、東京大学大学院工学系研究科情報工学専攻における博士の学位論文審査に合格したものと認める。

UTokyo Repositoryリンク http://hdl.handle.net/2261/53850