学位論文要旨



No 111817
著者(漢字) 西澤,格
著者(英字)
著者(カナ) ニシザワ,イタル
標題(和) 分散した情報資源の統合的利用法に関する研究
標題(洋)
報告番号 111817
報告番号 甲11817
学位授与日 1996.03.29
学位種別 課程博士
学位種類 博士(工学)
学位記番号 博工第3615号
研究科 工学系研究科
専攻 電気工学専攻
論文審査委員 主査: 東京大学 教授 安達,淳
 東京大学 教授 渕,一博
 東京大学 教授 斉藤,忠夫
 東京大学 教授 田中,英彦
 東京大学 助教授 喜連川,優
 東京大学 助教授 相田,仁
内容要旨

 近年、コンピュータネットワークの高速化の流れは目覚しいものがあり、その規模も爆発的に大きくなっている。これに伴い、世界中の主要な研究機関、企業、大学等はネットワークで接続され、各機関内の計算機は高速のLANで結ばれているというのが一般的になりつつある。また、ネットワークの高速化とは別に、計算機自身の価格性能費もすさまじい勢いで向上し、高速なCPU、大容量で高速のメモリ、磁気ディスク装置を備えた高性能・低価格な計算機が気軽に使用できるようになってきた。これらの計算機はネットワーク接続機構を標準装備している場合がほとんどであり、このため研究者のみならず一般の人々のネットワークに対する関心も大きくなってきていた。それに加えて1995年にはインターネットという言葉がマスコミで大きくとりあげられ、従来ネットワークを研究目的で使用してきた研究者のみならず、広く一般の人々もインターネットに参加するようになった。

 さらに、今年はWorld Wide Web(WWW)と呼ばれる分散情報システムが爆発的に普及した年でもあった。現在では全世界的に大きな企業、大学の各研究室のほとんどがWWWのサーバを立ちあげており、個人的なインターネット参加者たちも自分のホームページという形でネットワークに情報を発信することが可能となっている。このためネットワーク上の情報は指数関数的に増加し、様々な情報が錯綜することとなった。いかに大容量の記憶装置をもってしてもこれらの増え続ける情報を集中的に管理することは現実的には不可能であり、この分散する情報資源の中からいかにして自分に有用な情報を得るかということはネットワークを利用している人々にとって一番の関心事となってきている。ネットワークにおける情報の利用という目的で、現在様々な情報システムが稼働している。例えば前述のWWWを始めとして、Gopher、WAIS、Archie等をその代表としてあげることができる。これらのシステムは広く利用されているが、現状ではこれらのシステムを用いて実用的な情報を体系的に獲得するのは難しい。これはGopher、WAIS、Archieは予め作成した索引に大きな影響を受けること、WWWは基本的に発見的にしか情報を得ることができないことがその主な原因である。発見的な情報検索とは情報の大海をさまよっているうちに偶然有用な情報を見つけるというような意味で、Mosaic等のブラウザでWWW空間を眺めることが広くnetsurfingと呼ばれていることはよくその実体を表現していると言える。

 本研究における「情報資源の統合的利用」とは究極的には分散する複数の情報資源に対して、ユーザがその位置、異種性を意識せずにアクセスできるということを意味する。具体的に言うと、ユーザが複数の情報資源が存在することを意識せずに問合せを発行すれば、何らかのメカニズムによって実際は複数の情報源からその答えが集められユーザに示されるというものである。このように複数の情報資源を統合的に取り扱おうとする際には、解決しなければならない大きな二つの問題がある。一つは情報資源の管理の仕方とそれに対するアクセス方法に関する問題、そしてもう一つは各情報資源の間に存在するさまざまな異種性に関する問題である。

 情報資源の管理の仕方とアクセス方法について議論するにあたり、まず最初に情報空間の管理のモデルを考慮する必要がある。現在の情報システムでは情報空間の管理モデルは大きく二つに分類することができる。一つは索引型でそしてもう一つは航行型である。索引型のシステムは体系的な検索が可能であるという長所を持っているが、サーバが必要となり、ネットワークの巨大化によって情報量が激増している今日では、検索時のサーバへのアクセスの集中や、管理する情報のメンテナンスなど、情報量の大きさに起因する問題は無視できないものとなるという問題点を抱えている。一方、航行型のシステムは、検索時のサーバへのアクセスの集中の問題、管理する情報のメンテナンスなどの問題を回避できるという長所を持っているが、ユーザが情報の存在する場所を認識しておく必要があることと、(現在のシステムでは)情報発見という色彩が強く、実用的な情報検索を行うのは難しいという問題点がある。ところが、実際に情報資源を探索する際には、システムから情報資源へのアクセスはユーザから見えないこと、つまり情報の位置透明性が確立されることと、それらの情報に対して、ブラウジングのみならず体系的な検索が可能であることが要求される。またシステム的な観点からはある特定のサーバに負荷が集中するのは好ましいことではない。これらの要求を満たすためには上記のモデルの直接の適用ではうまくいかない。

 次に情報資源の異種性の問題について考える。異種性という言葉について考えると、情報の表現の異種性、情報の構造の異種性などの様々なレベルの異種性が存在することがわかる。複数の情報源に対する統合的な問合せ処理は、この異種性の存在から一般には困難な問題であるが、異種データベースの研究分野においていくつか議論がなされている。異種データベースの研究分野においては、データベースの異種性の中で、本論文で取り扱う主要な異種性を(データベース)スキーマの異種性と呼び、これらのスキーマの異種性を克服するために複数のスキーマを統合することをスキーマ統合と呼ぶ。また、本論文における個々の情報源を要素データベースと呼ぶ(情報源と情報資源の言葉の使い分けに注意されたい)。複数の異なるスキーマの統合においては、各要素データベースのスキーマおよびデータの一貫性を損なわないような工夫が必要とされるが、従来の研究では大域スキーマ、連邦スキーマなどと呼ばれる大域的な統合スキーマを作成する手法が一般的であり、これらは静的に構成される場合が多い。このアプローチは対象とするデータベースが確定している場合には問題無いが、取り扱い対象となる要素データベースが変化する場合には問題が起こる。

 上記の問題を解決するために、本研究ではユーザの問合せに対して動的に仮想データベース(virtual database)を構成し、ユーザからの問合せを処理する。この仮想データベース上では各要素データベース上で成り立つ関係である関数従属性を利用して、全体として矛盾の無い仮想関数従属性(virtual functional dependency)を計算する。この仮想関数従属性の情報を用いることによって、各要素データベースを矛盾無く統合することができる。さらに、本論文で議論する問合せ処理手法は、同時に複数の要素データベースを取り扱うことによって、それらに独立にアクセスを行う場合よりもさらに多くの情報を得ることができるという特徴がある。関係データベースシステムを対象としたアプローチで、各タプルについてインスタンスレベルでのルールを与え、データの実体の同一性問題を解決することによってデータの一貫性を保持しようとする研究も行われているが、一般的にデータベースの統合過程では対象とするインスタンスは膨大な数となってしまうために、実用性に欠ける。それに対して本研究における手法は、タプルの同一性問題については各要素データベース上におけるスキーマレベルでの一貫性を考え、空値の考え方を導入することにより、実用的なスキーマ統合の手法となっている。

 問合せ処理を行う際には、解の正しさと完全性、および計算量(効率)の問題にも注意をはらう必要がある。まず解の正しさと完全性については、統合を行う要素データベース間でその情報に矛盾が無い場合には、本論文で述べる問合せ処理手法は正しくかつ完全であることを証明した。各要素データベース間でその情報に矛盾が無い場合という条件は、統合アクセスを行う際には妥当な仮定であると考えられる。また、問合せ処理の効率については前述の仮想関数従属性が閉路を作らない場合には、多項式時間での計算で解を求め得るアルゴリズムを示した。もし仮想関数従属性が閉路を作る場合には推移閉包を求めるという高価な処理を行う必要があるが、閉路を作るか否かは問合せ処理を行う前に検知できるため、ユーザは全ての解を求めるのかあるいは一つ解を求めればいいのかというような、問合せを行う目的によって問合せ処理のアルゴリズムを切替えることにより、対処することができる。

 本研究における問合せ処理では各々のデータベースに対して検索を行った場合よりもより多くの解を求め得ることは既に述べたが、実際にどの程度の解が増えるかということは問合せ処理における大きな興味の一つであるため、解の大きさについてシミュレーションを行い、本手法の有効性を検証した。さらに実際にBIBTEX形式で記述された文献データベースを取り扱うプロトタイプシステムを実装し、実際のデータを用いて問合せ処理手法の有効性の検証を行った。

 また、さらに一般的な対象を考えた場合に考慮しなければならない情報資源の異種性の問題、および情報の組織化の問題についても検討を行い、複数の情報資源を統合的に取り扱う際の問題点を論じ、情報の選択と属性間の写像を与えるための支援としてデータベースのクラスタリングについての検討を行った。そして、異種性を解決し統合的なアクセスを実現するシステム構成とシステム構成要素について議論し、複数の情報資源を統合的に取り扱うためのシステムであるDIRECTORの提案を行った。

審査要旨

 本論文は「分散した情報資源の統合的利用法に関する研究」と題し、8章から構成されている。

 第1章は、「はじめに」であり、本研究の対象とする問題、すなわちネットワーク上に分散した複数の情報資源に対して、利用者がその位置や異種性を意識せずにアクセスを実現する方法についての問題を提示し、本研究での取り組みの手順について概観している。

 第2章は「関連研究」と題し、本研究に関連した過去の研究、特にインターネット等を前提とした情報空間の組織化、情報発見手法、マルチデータベース、データベースにおける論理などの分野で行われてきた研究をまとめている。

 第3章「統合的アクセスを実現するための間い合わせ処理手法」では、分散したデータベースに対し、仮想データベースを構成し、この上で全体として矛盾のない仮想関数従属性を計算することによるデータベースの統合手法を提案している。

 複数の異なるスキーマの統合では、各要素データベースのスキーマおよびデータの一貫性を損なわないような工夫が必要とされる。従来の研究では大域スキーマ、連邦スキーマなどと呼ばれる大域的な統合スキーマを作成する手法が一般的であり、これらは静的に構成される場合が多いが、要素データベースが動的に変化する場合には問題が生じる。

 本論文で提案された手法は、この点を解決することを目的としている。閉世界仮説に基づき、空値を考慮に入れることによって、スキーマ統合を実用的に実現するアルゴリズムを提案している。このアルゴリズムの特長として、個別のデータベースに独立して問合せを転送した後統合する場合よりも、正しい解集合が大きくなるという利点も持っている。

 アルゴリズムの実装に当たっては、解の正しさと完全性および計算量について考慮する必要がある。提案した手法については、個別のデータベース間で矛盾がない場合に処理手法が正しく完全であることを証明している。また計算量については仮想関数従属性のパターンによることを明らかにし、多くの場合には多項式時間で計算可能であることを示している。

 第4章「提案した問い合わせ処理手法の有効性」では、第3章での理論的なアプローチに基づき、スキーマ統合のアルゴリズムと有効性をシミュレーションによって評価している。提案アルゴリズムの特長として解集合が大きくなることが挙げられるが、この傾向をシミュレーションで調べ、その効果を実証的に示している。

 第5章は、「問い合わせ処理の応用」と題し、現実的なデータベースにおけるスキーマ統合のプロトタイプシステムを実現している。個人用に使われている文献データベースであるBibTEXのデータに基づき、データ項目の異なるデータベースを統合検索するようなサーバとMosaicを用いた利用者インターフェースを作成し、第3章で提案した問合せ分解のアルゴリズムを実装した。第4章で示したように個別処理の場合よりも大きい解が得られることも実証している。

 第6章「複数の情報資源を取り扱うシステムの提案」は、第5章のソフトウェアシステム設計の一般化と詳細化であり、複数の情報資源を統合的に扱う際の問題点を整理した後、異種性の吸収の方法、情報空間の組織化の方法について、システム構成を提案し構成要素の検討を行っている。

 第7章「考察」、第8章「結論」では、本研究で提案された複数データベース統合手法について概観するとともに、従来の研究との比較を行い、スキーマ統合と問合せ処理に見る提案手法の特色をまとめ、本研究で得られた成果を要約している。

 以上のように、本論文は分散した異種データベースに対する問合せ処理方法について、閉世界仮説に基づき理論的な基礎を築いた上で、問合せ処理アルゴリズムの提案、シミュレーションによる有効性の検証、プロトタイプソフトウェアシステムの実現により、総合的に処理手法の有効性を明らかにしたものであり、電気工学に貢献するところが少なくない。

 よって本論文は博士(工学)の学位請求論文として合格と認められる。

UTokyo Repositoryリンク http://hdl.handle.net/2261/1815