学位論文要旨



No 212842
著者(漢字) 横井,俊夫
著者(英字)
著者(カナ) ヨコイ,トシオ
標題(和) 言語知識の電子化辞書における情報構造の研究
標題(洋)
報告番号 212842
報告番号 乙12842
学位授与日 1996.04.17
学位種別 論文博士
学位種類 博士(工学)
学位記番号 第12842号
研究科 工学系研究科
専攻 情報工学専攻
論文審査委員 主査: 東京大学 教授 田中,英彦
 東京大学 教授 渕,一博
 東京大学 教授 井上,博允
 東京大学 教授 武市,正人
 東京大学 教授 石塚,満
 東京大学 助教授 堀,浩一
内容要旨

 大規模な情報や知識の構造を解明し、共有性に富む情報ベースや知識ベースを構築するための技術を確立することは、国家情報基盤、国際情報基盤の整備の礎となるきわめて重要な課題である。本研究は、言語に関する知識、すなわち、言語知識を対象に情報構造の解明を試み、EDR電子化辞書として具体的に実現した。

 情報そのものへの強い関心は、高機能化を求めて情報処理技術が意味処理に向かい始めたこと、大量情報の集積と利用という急成長を始めた領域から新しい技術への強いニーズが生まれ始めたことによる。これらのもとに具体的な課題が生じている分野に自然言語処理と知識処理がある。自然言語処理技術の本格的な研究開発のためには、多様で複雑な言語現象を体系的にとらえた大規模な言語データが重要であることが共通認識となってきた。知識処理においては、実用化システムへの過剰な期待への反省として共有性・再利用性に富む知識ベースコンテンツの着実な研究・開発が重要であることが共通認識となってきている。

 これらの共通認識のもとにこの十年来各所で多彩な取り組みがなされてきた。しかし、それらには、多くの課題、問題が残されている。大規模言語データに関する問題点は、自然言語処理技術という工学からの要請を十分にバランス良く反映したものになっていないこと、大規模な実現へのプロセスを十分に考慮したものとはなっていないこと、統合的な観点からの設計がなされていないことなどである。大規模知識コンテンツ構築技術に関する問題点は、知識表現メディアにおける議論が未整理である点が挙げられる。すなわち、知識処理から見ても、自然言語を知識表現メディアとして重視しなければならないが、自然言語による文書ベースと知識表現言語による知識ベースとのつながりが不明確な点である。

[研究の意義]

 本研究の意義は、このような問題点を解決するために言語知識の統合的な情報構造を明らかにすることにある。そして、この情報構造が、今後の自然言語処理技術の動向や効率的な開発プロセスの実現に十分に対応できること、また、文書ベースと知識ベースを統合化する新たな提案へと結び付くものであることを明らかにする。ただし、このような試みとしては初めてのものであることから、基本仕様、概念仕様の提案をまず行う。なお、本研究の言語知識の情報構造の提案は、このような仕様のものを総体として実現すべきであるという考えによるものではない。実際の言語知識コンテンツの開発・整備は各所でそれぞれの目的に沿って進められることになる。そのような多くの努力が納まるべき枠組みを明らかにし、効果的な協力や共有化を可能にしようとするものである。そのためにも、その妥当性を、自然言語処理、世界知識の情報構造、開発工程、それぞれの観点から検討し、他の事例との比較・検討、対応付けも行う。

[全体構造]

 電子化辞書の全体構造は、記述の単位、記述のレベル、言語の種類の3点で特徴付けられるサブ辞書群をもとに組み立てられている。サブ辞書が基本的なモジュールとなり、これを単位に言語知識は 大枠としてのモジュール化がなされる。

 言語知識を表現するための基本となる情報単位が辞書項目である。表層レベルでは表層辞書項目、概念レベルでは概念辞書項目である。サブ辞書は辞書項目の集合である。辞書項目の基本部は共通であるが、詳細は記述の単位ごとに異なる。

 辞書項目は多数のサブ項目からなる。サブ項目には辞書項目自身の情報や他の辞書項目との関係情報が含まれる。この関係情報によって辞書項目間の関係付けが表現され言語知識としての情報構造が形作られる。関係には、サブ辞書間にまたがる辞書間関係とサブ辞書内の辞書内関係がある。辞書間関係の主要なものとして、構成関係、対意関係、対訳関係が定義される。

[表層レベル]

 表層レベルのサブ辞書、すなわち、語表層辞書、文表層辞書、文章表層辞書、文書表層辞書の情報構造を明らかにする。

 表層レベルの言語知識が自然言語処理に果たす役割は大きく2つある。ひとつは構文的な処理のための知識を与えることである。センテンス文法、テキスト文法、ドキュメント構造(文法)等の解析、生成のための体系的な情報を与える。もうひとつは翻訳や要約等の文書処理に対し、変換や対応付けのありのままではあるが安定した情報を与える。また、電子化辞書の開発プロセスの観点からは、表層レベルは既存の蓄積を利用でき、安定した言語直観を期待できるもので、言語知識の土台となる。表層辞書における情報の基本単位に対応して表層辞書項目(図1)が定義される。

図表図1 表層辞書項目

 表層辞書の情報の基本単位は次のような性質を持つものである。(1)外見的に他と明確に区別しうる表記を持つこと(<表記情報>)。(2)上位の構成構造の中でどのような要素として振る舞うのかが明確に定義できること(<構成情報>・<要素カテゴリ>)。(3)対応する指示内容を確定できること(<対応情報>)。(4)使用される環境(状況)を規定できること(<環境情報>)。

 通常の辞書における情報単位は、表記から検索するという前提から表記の違いのみに基づいたものである。電子化辞書においては、表記、構文、意味、運用の情報をすべて等しく見なくてはならないという観点からこのような情報単位を用いる。

[概念レベル]

 概念レベルのサブ辞書、すなわち、語概念辞書、文概念辞書、文章概念辞書、文書概念辞書の情報構造を明らかにする。

 ここでは、2つの側面から概念という言葉を用いる。一つは、言語によって表現される情報や知識(対象知識、世界知識)を概念のレベルで扱うということである。すなわち、知識のレベルで扱うという程には深い意味の扱いには立ち入らない。もう一つは、個別の意味の表出を包括した共通となる意味内容を扱うということである。言語表現は、具体的な文脈の中でさまざまな意味と対応付けられるが、それらを包括し一般化した形、すなわち、概念化されたものを対象にする。

 表層に近いということから、概念レベルにおいても、語、句、文、文章、文書という言語表現の構成単位に沿うことになる。したがって、概念レベルは、表層レベルに対応した情報構造を持つ。

 概念レベルを含む深層レベルの言語知識の役割は大きく2つ考えられる。ひとつは、表層レベルを含めて、表層表現からそのレベルの意味表現にあるいはその逆に、適切にかつ効率良く変換処理を行うための知識を与えることである。もうひとつは、そのレベルの意味表現の比較処理をして、ある意味的関係が成り立つか否か、あるいはどのような意味的関係が成り立つのか、あるいは成り立つ度合いはどのようなものなのか等々を判断処理する知識を与えることである。ここで意味的関係とは、同義、類義、反義、上位、下位等を指す。

 概念は実体概念と関係概念に分けられる。実体概念とは、もの、こと、事象、事象列など実体を有するものに対応する概念である。関係概念は実体概念どうしのかかわり方を表す概念である。ひとつの概念を実体概念と見るのか、関係概念と見るのかは、観点によって恣意的となる側面がある。ここでの概念は表層表記に直截的に対応付けられる状態で設定されるもので、この観点から概念の種別が決定される。さらに、語、文、文章、文書という表層での記述単位(構成単位)に対応して、それぞれ実体概念と関係概念が定義されることになる。

 ひとつひとつの概念に概念辞書項目が対応付けられる。図2に概念辞書項目の基本構造を示す。

図2 概念辞書項目
[EDR電子化辞書]

 EDR電子化辞書(表1)は、情報構造の一部分の、また当面のニーズに答えるという目的からの実現である。しかし、EDR電子化辞書によって情報構造の有効性を裏付けるに十分な実証データが得られている。また、この情報構造によってEDR電子化辞書の位置付けや今後の改良・拡張の方向が明確になる。

 EDR電子化辞書は、言語の種類としては、日本語と英語を対象にし、分野としては、日常一般に流通している事務文書、技術文書に対し分野共通となる部分と情報処理分野に対応する部分を対象にしている。付録に、言語知識の情報構造の実現状況を詳細に説明するために、その仕様が例とともに詳述されている。

表1 EDR電子化辞書の規模(1995年4月第1版の基本語対応部分)
[結論]

 本研究によって得られた情報構造は、(1)自然言語処理に対しては、問題解決の構造に適切に対応付けられること、さらに、規則ベースと事例ベースのいずれにも柔軟に対応しうること、(2)知識処理に対しては、世界知識を文書から語に向かって言語知識に対応付ける事によって、世界知識の情報構造のプロトタイプとなっていること、(3)開発プロセスに対しては、サブ辞書を基本モジュールにして適切な工程が定義できること、これらによってその妥当性が明らかにされ、その有用性が示されている。

審査要旨

 本論文は、「言語知識の電子化辞書における情報構造の研究」と題し、7章からなる。自然言語処理は、今後の人工知能や情報処理で重要な技術であるが、その現在の技術レベルは、人間の持っている理解能力と比べると遥かにプリミティブな状況にある。その原因の一つは、コンピュータに、人間が保有するような膨大で様々な知識を持たせていないことがある。即ち、言語を理解するためにはいわゆる知識を電子化し、それを用いた処理が必須である。本論文はそのような電子化辞書の構築に向けて検討を行なったものである。

 第1章「序論」は、本研究の背景と目的について述べるとともに、本研究の位置付けを与え、本論文の構成をまとめたものである。

 第2章「言語知識の基本情報構造」は、まず、言語知識の情報構造を表現する電子化辞書への要求項目として、有用性、十軟性、汎用性、実現可能性を挙げ、それに基づいて情報構造の詳細化をする上で考慮した技術的な要点をまとめている。すなわち、機械翻訳の方式として使われるトランスファ方式と中間言語方式の双方に対応出来るものであること、自然言語処理方式からの要求としては、規則ベースではなく、より素データに近い事例ベース的な仕組みを基本とすること。概念体系構成の方式からは、この電子化辞書の利用目的が主として自然言語処理における意味処理への利用を主目的とするので、構文上の役割を考慮したうえでの意味的な共起関係という観点に立って概念の同一性や類似性を定義するという立場を取る。深層格や概念の設定に関する方式からは、表層の文を深層の文に変換する過程には、現在までに余り規則性が見い出されていないので、過程の記述には事例ベース的な手法を選択する。また、本章では、更に情報構造の基本仕様を論じ、記述の単位、記述のレベル、言語の種類の3要素について述べ、言語知識の実際の実現例であるEDR電子化辞書との関係を整理している。

 第3章「表層レベルの情報構造」は、言語知識が表層レベルで持つべき情報構造を詳細に議論したもので、語表層辞書、文表層辞書、文章表層辞書、文書表層辞書の情報構造を与えている。すなわち、これらの辞書の表層辞書項目としては、表記情報、構成情報、対応情報、環境情報からなる。この章では更に、この実現の一例であるEDR電子化辞書について、辞書の仕様を与えているが、構成要素は、単語辞書、対訳辞書、共起辞書、コーパス、テキストベースの5種類の辞書で、それらによって表層辞書を実現しており、言語の種類としては、日本語と英語の2種類である。

 第4章「概念レベルの情報構造」は、深層レベルの情報構造を論じたもので、語概念辞書、文概念辞書、文章概念辞書、文書概念辞書などの辞書を詳細化している。この深層レベルの中で、概念レベルを基準として設定した理由としては、知見の蓄積に有用であり、一般性に富み、表層から新しい意味表現への仲介役になり得ること、また表層に近いことから表層レベルを利用しての本格的な開発が可能なことを挙げている。概念としては、実体を表す実体概念と、それらの関係を与える関係概念の二つに分けて取り扱っている。概念辞書項目としては、識別情報、概念構成情報、概念関係情報がある。更にこの章では、概念レベルの情報構造の実現例として、概念見い出し辞書、概念体系辞書、概念記述辞書、共起辞書、EDRコーパス等からなるEDR電子化辞書を説明している。

 第5章「情報構造の妥当性」は、3章、4章で述べた情報構造を、自然言語処理の立場から検討を行なうとともに、常識に継る世界知識のプロトタイプ足り得るか否かを論じ、更に、この種の辞書を開発するプロセスからみても妥当であることを述べ、提案した構造が、2章の要求仕様を満たしており、妥当なものであることを主張している。

 第6章「他の事例との比較」は、世界の各所で研究されている他の代表的な事例との比較検討を行ない、本研究の意義と妥当性を明らかにしている。すなわち、比較は、表層レベル、概念レベル、知識レベルとの関連の3点について詳細に行ない、Acquilex、Multitex、IPAL、WordNet、CYC等との比較を通して、本論文で提案したものがより現実的で優れていることを述べている。

 第7章は、「結論」である。

 以上、これを要するに本論文は、自然言語処理や知識処理などで今後益々重要になる大規模知識ベースを実現する為に、電子化辞書という形での辞書作成を試み、必要な情報構造を明らかにするとともに、EDR電子化辞書の作成を通して実際に実現しその有用性を実証したもので、情報工学上貢献する所少なくない。

 よって、本論文は、博士(工学)の学位請求論文として合格と認められる。

UTokyo Repositoryリンク http://hdl.handle.net/2261/50997