学位論文要旨



No 112568
著者(漢字) 酒井,乃里子
著者(英字)
著者(カナ) サカイ,ノリコ
標題(和) 多様な論理構造を伴う文書データベースに関する研究
標題(洋)
報告番号 112568
報告番号 甲12568
学位授与日 1997.03.28
学位種別 課程博士
学位種類 博士(工学)
学位記番号 博工第3846号
研究科 工学系研究科
専攻 電気工学専攻
論文審査委員 主査: 東京大学 教授 安達,淳
 東京大学 教授 高木,幹雄
 東京大学 教授 斎藤,忠夫
 東京大学 教授 田中,英彦
 東京大学 教授 石塚,満
 東京大学 助教授 相田,仁
内容要旨

 計算機や記憶装置の高機能化に加えて、インターネットに代表される近年のコンピュータネットワークの発展や普及により、業務としてあるいは研究者として計算機を使う人だけでなく、一般のユーザとして利用する人まで、幅広い人がコンピュータを扱うようになってきた。この流れに伴い、文書を電子的に作成し活用するという方法も急速に一般的になった。電子的に文書を扱えば、著述や印刷のみならず、ネットワークを利用して物理的に離れた間でも文書をやりとりしたり、閲覧したり、時間的にしばらくおいた後データを再利用することも、またコンピュータの性能を利用して検索したり、ユーザがその時に必要とする部分だけを取り出したりと、文書を高度に活用をする様々な利点が得られる。このとき、文書の論理構造を明示的に書き込むことにより、この利点が一層大きくなる。

 文書の論理構造とは、文書が再帰的に細分化される階層構造を指す。たとえば、文書全体は書誌情報と文書の本体、そして参考文献の三部分からなり、書誌情報はさらに、文書のタイトル・著者の名前・所属といったものから構成される、といったつくりが論理構造である。論理構造を構成する個々の断片を、論理要素と呼ぶ。この論理構造が文書内に明示してあることによって、「著者の名前が(文字列)」「(文字列)という章の中にある(文字列)についての記述」といった、高度な検索に対処ずることができる。前者は、現在でも、文書の全体から二次情報として予め抜きだし、アトミックなデータとして整形または仮定して、関係データベースなどで処理されている。しかし、これでは、文書そのものと、二次情報の二つのデータベースを持つことになる。また、文書の本体部は、上下関係などが従来のデータベースでは扱いにくく、ただのプレインな文書では、論理構造を変形して、たとえば文書の全体を把握するために、タイトルと章や節の題のみを表示して目次のような形式で閲覧したい、といった要求にも対応できない。

 文書の中に論理構造を明記する目的のために国際規格SGML(Standard Generalize Markup Language)が制定された。SGMLでは、論理要素の各断片を、前後からその要素名を用いたタグで挾んで要素を区切り、また再帰的にタグを配置することで文書の木構造に当たる論理構造を記述する。

 しかしこのSGMLでは、論理構造の定義の仕方や文書内の論理構造の記述の仕方のみを規定しており、実際の論理構造は、著者や学会・出版社など独自の文書を扱いたい者が自由に定めることになっており、学会ごと・出版社ごとなどに、様々な論理構造を持っている。この多様性は、内容に適した高い表現力と、読むものにアピールする豊かな個性を文書にもたらすので、対象とする範囲を実際の科学技術論文に限れば、極端な違いは免れてもある程度の多様性は必要であり、受け入れざるを得ない

 一方でこれらの文書を集積してデータベースなどを構築する場合は、論理構造の多様性により、ユーザの求める処理に必要な情報が各論理構造でどこに当たるのか単純には判断できず、システムの効率的な処理の妨げとなる上、画一な情報を示す場合に比べて、示すデータの形式がまちまちであったり、閲覧画面が大きく異なっていたりとユーザの理解を助けるシステムとしては課題が残る。ユーザが求める場合には、統一的なインタフェースやビュー、操作環境を提供する機能も備えていることが望ましい。

 本論文では、論理構造を活用するための文書記述のためのその他の規格や活用面での最近の動向を検討する。また、特に電子化文書のデータベースをネットワーク上でアクセス可能にした電子図書館の実験が盛んに行われているが、この様子をサーベイする。その結果、文書を対象とする範囲では、論理構造の記述としては現在SGMLが採用されており、その有利さが認識されていることから将来は更にこの動きが広がる見込みがあり、またはっきりとその希望を言明しているグループもある。それでいながら、SGMLによる論理構造の扱いの難しさについても知られており、現在のところは一ヶ所のソースによる文書に限定していたり、プレインなテキストによるデータを用いたシンプルな動作にとどまっていたりするものも多いことが分かる。

 文書の一層の高度利用を実現するためには、文書のSGML化が不可欠であると展望されるが、そのためには、柔軟な文書の記述が保証されていながら、必要な局面では効率的・画一的な処理も可能にしたいという、相反する要求に対処する課題がますます大きくなってくることが予想される。

 本研究では、上記の目的を果たすものとして、以下のようなデータベースを想定する。まず多様な論理構造を持つ文書をそのままの形式で蓄積する。これは、データベースの用意した論理構造や整形画面のみならず、もとの文書に付随するパーザやフォーマッタなどの処理系によるオリジナルなデータが、長い間慣れ親しんだユーザなどに必要とされるなど、複数の処理系に対応しつつ、記憶装置や計算コストの節減を図るためには、どれかの論理構造に統一してデータとして格納するよりももとのままの方が有利だからである。

 次に、データベースも独自の論理構造を持つ。標準的な論理構造として広く流布しているHTMLなどを用いるケースも多いが、データベースも内容に適した論理構造や、個性を持つことは望ましい。そこで、データベースも論理構造を定義して、これと、各論理構造との間の変換仕様を、準備作業として、著者やデータベースの管理者が、一論理構造につき一回ずつ作成しておく。

 実際の運用では、ユーザにはインタフェースとしてデータベースの固有の論理構造を提示し、ユーザはそのビューに基づいて検索や閲覧など処理を要求する。ここでは論理構造を取り込んだ検索条件なども対応可能である。この処理要求に対して、各文書の論理構造をデータベースのものに変換して要求を処理し、合致するものをデータベースの論理構造に整形して、ユーザに結果を返す。

 このようなデータベースの核となるのは、論理構造を変換する機構であり、本研究ではこの論理構造を変換する手法に主に焦点をあてて検討した。

 提案する手法では、変換前と後の論理構造を把握した著者やデータベースの管理者が、論理構造を変換するための規則を記述する。この規則は、変換後の論理構造を構成する変換前の論理要素(新要素と呼ぶ)を、変換前のどの論理要素(旧要素と呼ぶ)で構成するかという割り当てと、変換後の要素を構成するためのデータ形式の二つの内容から成る。まず、割り当て規則について考える。

 要素名の相違などの単純な課題に加えて、留意すべきなのは、対応する新旧の要素が必ずしも1対1でないこと、あるいは論理構造の定義において、対応する新旧要素で出現可能回数が異なる場合があることなどである。

 まず割り当て規則について考える。新旧の要素が1対多である場合とは、たとえばもとの文書の論理構造では著者の名前が姓と名に該当する二つの要素から構成されていたのに、新要素では名前全体に該当する一つの要素でできている場合などに当たる。この状態を記述するためには、ある新要素を構成する旧要素群を、その名前だけでなく、共通とする部分、つまり同じ著者の姓と名は組み合わせるが、違う著者のものは組み合わせないといった場合の同じ著者という条件を記述できることが必要である。

 後者は、たとえば旧要素は複数回の出現が許されていて、新要素は許されていない、というケースである。この場合、一つの新要素に対応する旧要素はまとめてしまわなくてはならない。割り当て規則には要素は名前を記す他、どの範囲で旧要素をまとめるのか、つまり同じ章の段落は一つに統合するが違う章の段落はしない、といった場合の同じ章という条件を記述する必要がある。

 また要素は論理構造上の出現位置によってその持つ意味合いが全く異なることが考えられる。たとえば、年に関する要素が定義されていたとして、発行年月日の下にある時はその文献の発行年を意味するだろうし、参考文献の中にあればその参考文献の発行年を意味すると考えられる。

 これらの要請を考え合わせると、要素は論理構造上の絶対パス、つまりルートからその要素まで中間ノードをすべて記述したものを属性として持つべきであり、そのパス中の中間ノードをコンポーネントと呼ぶ。そして、1対多を記述するためには、共通とする部分とそうではない部分を分けて記述する。複数回出現を判別するためには、旧要素で章が違えば新要素でも別要素というように鍵となるコンポーネントを他のものより優位であると定義し、優位性を用いてまとめ方を記述することができる。

 本研究では、論理構造の変換に際して考慮すべき点を整理して、上記のような変換仕様書に基づいて、実際に論理構造を変換するための段階をまとめた。そして、実際の科学技術論文をサンプルデータとして、そのような論文などを記述している論理構造間で、論理構造を変換する実験を行った。その処理手法を一般的な形で記述するとともに、具体的な例を用いた処理の様子を示すことにより、その汎用性と具体性をともに解説した。

 さらにこの手法を、想定したデータベースとして全体的に機能させるためにはインタフェースなど、データベースの違う側面の研究が欠かせない。そこで、そのような点について提言を行った。

審査要旨

 本論文は「多様な論理構造を扱う文書データベースに関する研究」と題し、さまざまな論理構造を持つ電子文書を蓄積し、大規模な文書データベースを構成する際に必要とされる文書構造の変換処理について、システムの構成法、処理手法を提案しその実現を試みた研究をまとめたもので、9章から構成されている。

 第1章は、「はじめに」であり、本研究の背景、問題の所在、論文の焦点について述べている。

 第2章は「構造化文書の記述」と題し、本研究に関連した国際標準のSGML、ODAなどにおける電子文書の概念、文書処理、問題点について概観している。特に、文書の論理構造の記述概念の相違について要約している。

 第3章の「本研究の課題」では、まず、大規模なデータベースの構成を前提とした電子文書処理には、多様な論理構造を扱う機能が必須であることを論じている。文書を作成する側での多様性、データベースとして利用する側での文書モデルの相違などのシステム的な観点から、論理構造の相違が不可避であることを述べ、これに対処するような機能を持つデータベースシステムのアーキテクチャを提案している。その中で、電子文書の論理構造を変換する機能がその核心となるものであるととらえ、本研究での課題を整理している。

 第4章は「関連研究1:構造化文書の処理」と題し、SGMLに従った構造変換に関する従来の研究例を挙げ、本研究で採用している手法との相違点を論じている。

 第5章は、「関連研究2:電子図書館」と題し、現実的な文書データベースの応用例である電子図書館等での文書の扱いと動向を紹介し、本研究で採用している手法を活用できる対象を明らかにしている。

 第6章は、「手法の全体像と変換手法」と題し、第3章で設定したシステムアーキテクチャに沿って動作するソフトウェアシステムの構成法と各サブシステムが実現すべき機能について論じている。

 SGML文書の論理構造要素間の対応付けに関し、SGMLの仕様に沿った構造を記述するには文脈自由文法の水準を越える仕様が含まれていることを指摘し、これを変換処理するには、特別な対処を要することを述べ、その手法を明らかにしている。また、文書処理に特有の変換処理や文字列処理の内容をまとめ、整理している。

 次に、提案する手法について、6段階の処理に分けて手法を説明している。処理を行う前提として、各種の概念を説明し、論理要素の表現、変換仕様の記述方法、繰り返し要素の評価方法、変換後の新しい要素の生成方法、データ整形の種類と指定方法や動作などに渡って詳述している。

 第7章は、「処理過程」と題し、これまでに規定してきた概念と記法に従って行う各種の処理のアルゴリズムや処理例を述べている。

 第8章の「評価」では、本研究で提案された手法を実現するソフトウェアシステムの動作とその実験結果について述べている。プロトタイプシステムでは、学術論文に特化したDTDを使った電子文書からHTML文書へと変換する場合を取り上げ、変換仕様とその処理について、本論文で主張している各種の変換機能が実際に有効に動作していることを示し、所望の結果が得られたことを説明している。

 また、本研究では扱っていない関連の研究課題について紹介しつつ、本論文で得られた成果をまとめている。

 第9章は、「おわりに」であり、論文の全体像と今後の方向性についてまとめている。

 以上のように、本論文は、SGML文書を対象として、多様な論理構造を持つ電子文書からなる大規模な文書データベースを構成する際に必須となる文書構造の変換とその処理について、このような概念の必要性、システムの構成法、処理手法、および変換仕様記述手法を提案しその実現により有効性を示した研究であり、電気・電子情報工学に貢献するところが少なくない。

 よって本論文は博士(工学)の学位請求論文として合格と認められる。

UTokyo Repositoryリンク http://hdl.handle.net/2261/1817