学位論文要旨



No 111123
著者(漢字) 片山,紀生
著者(英字)
著者(カナ) カタヤマ,ノリオ
標題(和) 明示的な意味表現を持つデータベースシステムに関する研究
標題(洋)
報告番号 111123
報告番号 甲11123
学位授与日 1995.03.29
学位種別 課程博士
学位種類 博士(工学)
学位記番号 博工第3367号
研究科 工学系研究科
専攻 電気工学専攻
論文審査委員 主査: 東京大学 教授 安達,淳
 東京大学 教授 斉藤,忠夫
 東京大学 教授 濱田,喬
 東京大学 教授 田中,英彦
 東京大学 助教授 喜連川,優
 東京大学 助教授 相田,仁
内容要旨

 本論文では、データベースにおける意味表現について議論し、「明示的な意味表現を持つデータベース(A Database with an Explicit Semantic Representation)」として「意象データベース(S-object Database)」を提案する。ここでデータベースにおける意味表現とは、個々のデータが持っている意味を表現する仕組みのことをいう。関係データベースやオブジェクト指向データベースではデータ構造そのものが意味表現の役割を持つが、意象データベースではネットワーク構造を持つ意味表現を述語論理によって明示的に管理する。

 意味表現を明示的に管理する利点は、複雑かつ多様な意味表現に対応できる点にある。すなわち、従来のデータベースではデータ構造という画一的な構造によって意味を表現するため、複雑なデータや多様なデータに対して柔軟に対応することができない。これに対して、意象データベースでは、意味表現をネットワーク構造のまま直接的に表現するため、複雑なデータであってもそのまま管理することができるのである。例えば、文書データの場合、その意味表現はハイパーテキストのような複雑なネットワーク構造になる。このような構造を直接的に管理できる点が意象データベースの特徴である。

 関係データベースやオブジェクト指向データベースといった従来のデータベースシステムは、データが一様な構造を持っていることを前提としており、文書データなど多様かつ複雑な構造を持つデータの蓄積には適していない。特に問題となるのは、これらのデータが本質的にハイパーテキストのようなネットワーク構造を持っているにも関わらず、データベースシステムがそのような構造を対象としていなかった点にある。そこで本研究は、多様なネットワーク構造を持つデータを蓄積するための新しいデータベースシステムを提案する。本研究が提案する意象(いしょう)データベースでは、データが持っている意味を表現する機構と実際に物理データを蓄積する機構とが分離されているのでネットワーク構造を明示的に管理することができる。

 しかし、そのようなネットワーク構造を持った意味表現を管理する場合、その無矛盾性の維持が大きな問題となる。そこで意象データベースでは、一階述語論理に基づいた一貫性管理機構を導入し、導出ルールと無矛盾制約を記述することによって意味表現の無矛盾性を維持できるようになっている。この一貫性管理機構は、一階述語論理に基づいているという点で、論理プログラミングや演繹データベースと類似しているが、計算手続きによって定義される機能的述語の概念を導入することによってデータベース特有の拡張を行っている。この拡張によって、算術演算や文字列演算などの演算処理も述語によって表現することができるため、記述力大幅に高めることができる。特に、利用者が自由に演算を定義できるようになるため、データベースシステムの拡張性という意味で大きな利点となる。

 意象データベースの最大の特徴は、柔軟なネットワーク構造による表現と、述語論理によって記述される強力な一貫性管理機構である。これらの特徴から、意象データベースは多種多様なデータを柔軟に蓄積・管理することが可能である。概して言えば、ハイパーテキストの柔軟性と演繹データベースの強力な一貫性管理機構とを兼ね備えたデータベースなのである。

 明示的な意味表現を持つデータベースを実現するためには、ネットワーク構造を持った意味表現を蓄積・管理するためのデータモデルが必要である。そこで、本研究ではそのようなデータモデルとして意象モデルを開発した。意象モデルは、データの意味をどのように表現し、管理するかを規定するモデルであり、構成される意味表現は意味ネットワークのようなネットワーク構造を持つ(図1)。意象モデルは、意象、物象、意関、意接、意約という五種類の構成要素からなる。

 意象の役割は、データベースにおける意味的な最小単位を一意に表現することにある。意象として表現されるのは以下のものである。

 実在する実体:個々の文書、個々の人間など

 概念的な実体:文書や人間などの集合や、数学、計算機科学といった抽象概念など

 物理データ:数値、文字列、テキスト、イメージなど

 意象は、意味表現のネットワーク構造においてノードになる。

 意象の概念の中で最も重要なのが、意象の一意性である。つまり、意象が表現する対象は唯一でなければならないし、逆にその対象を表す意象も唯一でなければならない。この概念がなければ、意象モデルによって構成される意味表現が一意なものではなくなってしまう。

 物象は、抽象データ型に基づいてカプセル化された物理データである。それぞれの物象は、その意味を表現するための意象をひとつだけ持ち、物象と意象との間に1対1の対を作る(図2)。

図表図1:意象と意接によるネットワーク構造の例 / 図2:物象とそれを表現する意象との対

 意関の役割は、意象相互に存在する意味的な関連を一意に表現することにある。例えば「Xの著者がYである」というのは意味的な関連であり、下のような意関によって表現する。

 

 ここで、Is-Author-Ofは述語名であり、Person,Documentは項のラベルである。項の数は述語ごとに一定であるとする。

 項の値として意象を与えることによって意象間のリンクを定義する。便宜的に"NAME"という名前の意象を〈NAME〉と表すことにすると、「〈J.Smith〉が〈Paper A〉の著者である」というリンクは下のように記述する(図3)。

 

 このようにして意象間に定義されるリンクを意接(S-link)と呼ぶ。

 意象、意関、意接によって、ネットワーク構造を持った意味表現を構成できるが、更新処理が行われて意味表現が変更されたとき、意味的に矛盾した表現になってしまう恐れがある。したがって、意味表現の一貫性を維持するためには、さらに意味的な制約を定める必要がある。この制約のことを意約と呼ぶ。

 意象モデルでは、意約の基礎として述語論理に基づくアプローチを採用した。意約は次の二種類に分類される。それぞれの例を図4に示す。

 

 ここで、Aは原子式、L1,…,Lnはリテラルであり、いずれも項に関数記号を持たせることはしない。述語は、該当するリンクが存在するとき真、存在しないとき偽と解釈する。

図表図3:著者と文書の間の意味的な関連 / 図4:意約(S-constraint)の例

 意約は基本的に、演繹データベースで用いられている層状プログラム(Stratified Program)の概念に基づいている。層状プログラムは、ホーン節で記述される確定プログラム(definite program)の一種であり、Prologと類似した体系である。ただし、層状プログラムでは←を論理的な含意(implication)ではなく新たな述語の導出と解釈し、述語間に層状の導出関係があるという条件を設ける。すると、ボディに論理否定を含んでいても推論が単調推論になり不動点が存在することが知られている。

 意象モデルで用いられている述語論理は、演繹データベースで用いられているものに近い。意象モデルも、演繹データベースと同様に層状プログラムに基づいており、層状プログラムについては、演繹データベースの分野で盛んに研究されている。しかし、このクラスは実際の用途に適用するには単純すぎる。というのは、算術演算を一般的な方法で導入する機構を持たないからである。例えば、Datalogは<(less),>(greater),=(equal)といった二項比較演算子を持っているが、他の演算子を導入する方法は提供されていない。実際の応用では、算術演算子、文字列演算子、型変換演算子といったより多くの演算子が必要になるのである。

 ひとつの解決策はPrologのように関数記号を導入することが考えられる。しかし、関数記号を導入した場合、問合せや一貫性ルールを記述するには記述能力が一般化され過ぎてしまう。したがって本研究では、従来の関数記号を持たない確定プログラムを拡張するための概念として、機能的述語を提案し、機能的述語のための評価アルゴリズムを開発した。機能的述語は、任意の演算を述語として取り扱えるため、利用者が述語を定義してシステムを自由に拡張できるという利点がある。

 本論文では、応用例として文書データベースを取り上げたが、一般に多様な構造を持つデータを蓄積する場合には、意象データベースが有効であると考えられる。今後、意象データベースがそのようなデータに対して広く応用されることを期待している。

審査要旨

 本論文は「明示的な意味表現を持つデータベースシステムに関する研究」と題し、データベースにおける意味表現をモデル論から再検討し、特に複雑かつ多様なデータ表現を必要とする文書データやマルチディア情報等に適応する際に有効な新しいパラダイムとして「意象データベース(Semantic-object Database)」を提案するもので、10章から構成されている。

 第1章は、「序論」であり、本研究の対象とする問題を提示し、多様な意味表現を実現するためにそれを明示的に管理することの必要性、従来のデータベースでは所与のデータ構造による画一的な構造によって意味を表現するため、柔軟に管理することが難しいことを指摘した上で、本研究で取り扱う問題の設定と取り組みの手順について概観している。

 第2章は「関連研究」と題し、本研究に関連した過去の研究、特にデータモデル、データベースシステム、述語論理等の分野で行われてきた研究をまとめている。

 第3章「明示的な意味表現を持つデータベースシステム」では、構造化文書等の複雑な情報構造を持つデータを蓄積・検索するのに適したデータベースの枠組を提案し、その概念を説明している。特に、従来からの関係データベースやオブジェクト指向データベースでは、本質的にネットワーク構造で表現される構造をフラットなデータ構造に写像していることに起因する問題がみられることを論じ、データベースとして明示的なネットワーク状の意味表現構造の維持管理を行う必要性とその利点を述べている。

 第4章「意象モデル」では、第3章での議論を基に意味表現を明示的に行うためのデータベースモデルを定式化している。このモデルでは、述語論理による導出をデータの問合せや一貫性維持に適用することが特徴で、特に、複雑な意味構造を蓄積するデータベースで問題になる無矛盾性維持のためにこの機能が有効である。データモデルとして、意味表現が意味ネットワークのようなネットワーク構造で表現され、それへの問合せや一貫性管理をどのような述語論理で行うかなどの特徴を説明している。また、データベース特有の演算処理を効果的に記述するために必要な拡張を行っており、その機能についても説明している。

 第5章は、「意象データベースシステム」と題し、提案したモデルに従って開発したプロトタイプシステムについて、構成、機能要素、各種プリミティブについて詳述している。

 第6章「機能的述語に基づく導出機構」では、問合せ処理等に用いる述語論理機能について説明している。意味的な制約を記述する機能は、層状否定を含む関数記号なしの確定プログラムを機能的述語という概念により拡張したものによっている。算術演算を初め多くの演算子を必要とするデータベース問合せ処理で、手続き的記述を可能とする関数記号を導入しているPrologに見られるような一般的な手法ではなく、確定プログラムを拡張した手法を採用している。これにより任意の演算を述語の形で組み込み、しかも導出機構として明示的に提供することが可能となる。本章では、この定義と評価メカニズムについて説明している。

 第7章「参照一貫性管理」では、意象データベースのもう一つの特徴である参照一貫性管理について説明している。これは「あるオブジェクトが他とリンクしている際にその参照先が必ず存在する」という制約であり、この維持がデータベース管理上、重要である。この存在を判定し、管理するアルゴリズムを示している。

 第8章は「プロトタイプシステムの実装」と題し、提案するデータモデルや機能を備えた実現システムについて説明している。利用者インタフェースの実際、機能的述語の導出の評価のプロセスなどの動作例を示し、これにより、提案モデルの基本的な機能の妥当性を示すとともに、他にはない特徴を例示している。

 第9章「考察」、第10章「結論」では、本研究で提案されたデータモデルと他の従来のものとの比較を行い、意味表現、導出機構、参照一貫性等に見る提案手法の特色をまとめ、本研究で得られた成果を要約している。

 以上これを要するに、本論文は、多様な構造を持つデータを蓄積するために有効なデータモデルを提案し、特にデータの意味表現を明示的に蓄積する機能、それに伴う述語論理による導出機構、参照一貫性等の機能を定式化し、システムの実現により、その有効性を明らかにしたものであり、電気工学、情報工学に貢献するところが少なくない。

 よって著者は東京大学大学院工学系研究科における博士の学位論文審査に合格したものと認める。

UTokyo Repositoryリンク