学位論文要旨



No 212288
著者(漢字) 関根,純
著者(英字)
著者(カナ) セキネ,ジュン
標題(和) 用語辞書を用いたデータ標準化支援手法に関する研究
標題(洋)
報告番号 212288
報告番号 乙12288
学位授与日 1995.04.14
学位種別 論文博士
学位種類 博士(工学)
学位記番号 第12288号
研究科 工学系研究科
専攻 情報工学専攻
論文審査委員 主査: 東京大学 教授 大須賀,節雄
 東京大学 教授 森下,巖
 東京大学 教授 武市,正人
 東京大学 教授 田中,英彦
 東京大学 教授 井上,博允
内容要旨

 近年多くの企業で、業務の効率化のためにデータベース(DBと略す)を核とする様々な情報システムを構築してきた。それと共に、構築したDBを連携して業務横断的な情報を抽出し、企業経営に役立てたいとする要望が高まっている。しかし、これらの企業では、業務毎に独立にDBを構築することが多かったために、DBを連携しようとしても、それらの間の対応関係や重複がわからない、あるいはDB間でデータが重複し統制なく更新されるため矛盾が発生するなどの問題があった。

 この問題の解決のためには、まずDB間のデータの対応関係や重複の把握が必要であり、そのためのキー技術としてデータ標準化に多くの企業の関心が集まっている。データ標準化とは、企業内で共通管理すべきデータ項目を識別し、それに一貫したわかりやすい名称や表現形式を付与することである。データ標準化は、これまで人間が実施してきたが、独立に構築されたDBでは同じデータ項目でも異なる名称や表現形式を持つため同一かどうかの識別が難しい、あるいは多数の大規模なDBを保有する企業ではデータ項目の数が数万と多く識別の作業量が膨大となるなど負担が大きく、これがDBを連携する上で最大の障害となっていた。

 そこで本研究では、データ標準化を計算機を用いて効率的に支援する手法、その手順、およびこれらを具体化する支援ツールの構成を提案した。

 データ標準化の手順や支援手法に関する従来の研究は、複数の異種DBを重複がない一つのDBであるかのように見せる連邦DBの研究に見られる。この研究によれば、データ標準化の手順は、DB間で重複するデータ項目を発見し、それらの間の不整合を発見し統一するという段階を経る。この内、重複するデータ項目の発見が最も実施が困難であるが、人間が名称を用いて発見することのみが提案されており、大きぼなDBに適用できる手法ではなかった。またこのために、従来からテキスト検索等で用いられる所在案内手法を適用することが可能だが、名称は類似でも内容が異なるものが抽出され的中率が低いという問題があった。一方、データ標準化の担当者(データ管理者)の間では、共通管理すべきデータ項目識別の第一歩として、データ項目に分かりやすく一貫した名称を付与することの重要性が認識され、そのための名称チェック手法としてDurellの命名規則が用いられてきた。Durellの命名規則では、名称にデータ項目が管理する対象を表す用語(主要語)、および値を表す用語(区分語)が含まれているかどうか等をチェックする。しかし、この命名規則には、これらの用語の種別が判定できなければ計算機化が難しい、あるいは日本語固有の名称に対応できないなどの問題があった。

 これに対して筆者は、次の考えに従いデータ標準化の手順と手法を検討した。まず、独立に付与されたデータ項目の名称は曖昧であり、それをそのまま用いたのでは重複するデータ項目の発見は難しいと考え、名称を事前に分かりやすく一貫したものに整備するステップを従来の手順に追加した。この名称整備のためにDurellの命名規則を改良して用いた。また、従来の所在案内手法には、内容の類似性の判定に重要ではない用語も重要な用語と同等に扱うという問題があったので、用語の重要度を考慮した所在案内手法を新たに提案し、重複するデータ項目の発見に用いることにした。

 この考えに基づき、まず、名称を構成する用語と用語種別を用語辞書で管理し、それを用いてDurellの命名規則を計算機でチェックする手法を提案した。また、Durellの命名規則を日本語固有の係り受けや実際に現われる様々な名称に対応するため拡張した。さらに、Durellの命名規則だけでは名称を一貫したわかりやすい名称とするには不充分なことがわかったので、新たに4種類の命名規則を提案した。以上の提案を、既に構築済みの14のDBの12,000のデータ項目に適用した結果、Durellの命名規則に違反する名称が約40%あることなど、既存のDBの問題を初めて定量的に把握することが可能になった。また、この手法を新規に構築する2DBの1,300のデータ項目に適用した結果、名称の整備に有効であることが確認できた。さらに、用語辞書の維持管理に必要な作業量を定量的に評価した結果、実用上問題がないことが確認できた。

 次に、内容の類似性を判定する上で重要であるのは、名称を構成する用語の内、区分語と主要語であることがわかったので、これらを用語辞書を用いて判別し所在案内を行なう手法を提案した。これを70のDB、8,000のデータ項目の間の類似データ項目の発見に用いた結果、意味のない抽出結果を9分の1に削減できることが確認できた。

 さらに、人間が試行錯誤で構築した用語辞書には、用語と用語種別に誤りがあり、これが名称チェック、および所在案内の結果の信頼性に影響することがわかったので、自然言語処理における係り受け解析法を応用してこれらを機械的に決める手法を提案した。名称に対して係り受け解析法を適用して、名称を構成する語、語の品詞種別、および意味カテゴリを抽出し、これに提案手法を適用することにより用語と用語種別を決めることが可能になった。この結果、用語は100%、用語の種別は94%の精度で正しく設定できることがわかった。本手法を用いることにより、用語辞書を専門家でなくとも容易に構築できるようになった。

 一方、データ標準化支援ツールに関する従来の研究は、ディクショナリシステムの研究に見られる。ディクショナリシステムとは、データに関する管理情報を、それを管理するプロジェクトや分析設計の進捗と関係付けて管理する機能等をDB管理システムに強化したものである。しかし、ディクショナリシステムにはデータ標準化そのものを支援する機能はなく、また、これをデータ標準化結果の管理に用いると、プロジェクトと管理情報の関係を柔軟に変更できない、あるいは管理情報の様々な単位での進捗管理ができないという問題があった。

 これに対して筆者は、データ標準化は、DB設計と関係が深いことから、DB設計プロジェクトとデータ管理者が分担して実施すべきと考え、これを前提とした分散した支援ツールの機能構成とディクショナリ構成を提案した。提案によれば、命名規則のチェックなど負担がかかりDBに閉じて実施できる作業は極力DB設計プロジェクトで行ない、DB間にまたがる一貫性チェックなど全体を見通した判断が必要な作業のみをデータ管理者が行なう。また用語辞書については、全社共通の用語辞書、およびDB毎のローカルの用語辞書からなる分散構成を提案した。名称から抽出した用語を即座に共通の用語辞書に登録する代わりに一時的にローカルの用語辞書に登録することにより、データ管理部門によるチェック、および複数のDB設計構築プロジェクトによる並行したデータ標準化が可能になった。ディクショナリシステムについては、最も柔軟性が高いISOのIRDSを基本に拡張を行ない、プロジェクトや進捗を管理する柔軟な操作系を提案した。また、この操作系をリレーショナルDB管理システム上に実装する手法を示した。

 以上の提案に基づき、ディクショナリシステムおよびそれを用いたデータ標準化支援ツールを試作し、実際にDBの連携に用いた結果、設備を管理する10のDBおよそ9,000のデータ項目の内の700データ項目が共通化できること等を発見できた。また、各DB毎に構築したローカルの用語辞書を比較することで、同一のデータ項目が異なる用語を用いて命名されている可能性を効率よく発見できることもわかった。以上から、提案した支援手法、手順、およびそれを具体化した支援ツールの有効性を確認できた。

 全体をまとめると、本論文では、多数の大規模なDBを対象としたデータ標準化にも適用できる実用レベルのデータ標準化支援手法、手順、および支援ツールの構成を初めて提案した。具体的には、次の点で貢献した。

 ・データ項目の名称の分かり易さと一貫性の向上のために従来から用いられているDurellの命名規則には、計算機化が難しい、および日本語の名称に対応できないという問題があった。そこで、名称を構成する用語を用語辞書に持ち、それを用いて計算機により命名規則のチェックを行なう手法を提案すると共に、命名規則を日本語固有の係り受け、および実際に現われる多様な名称に対応するため拡張した。さらに、用語辞書を自然言語処理における係り受け解析技術を応用して構築する手法を提案した。

 ・従来からの所在案内手法をDB間で内容が類似したデータ項目の発見に用いると,内容が類似していないデータ項目でも類似と判定されるという問題があった.そこで,内容の類似性を判定する上で重要な主要語と区分語に着目し,それを用語辞書を用いて識別することにより,精度よく所在案内を行なう手法を提案した.

 ・連邦DB技術の一環として提案されている従来のデータ標準化手順には、DB毎に独立に付与された曖昧な名称のデータ項目に適用すると重複を発見できないという問題があった。そこで、名称チェック手法を用いてデータ項目の名称を整備した後、所在案内手法を適用する手順を提案し、独立に構築した大規模なDBにも適用可能とした。

 ・DB設計プロジェクトとデータ管理者の分担を前提に、データ標準化支援ツールの構成とディクショナリシステムの機能を提案した。

審査要旨

 工学修士関根純の提出論文は、「用語辞書を用いたデータ標準化支援手法に関する研究」と題し、6章からなる。

 近年、企業活動をより広範に支援するために、業務毎に独立に構築した複数のデータベース(DB)を連携して、業務横断的な情報を抽出したいという要望が高まっている。この連携のためにはDB間でのデータの対応関係や重複の把握がまず必要であり、その核技術として、企業内で共通管理すべきデータを識別し、それに一貫したわかりやすい名称や表現形式を付与する、データ標準化が重要視されてきている。

 従来のDB技術では、データの定義と操作の計算機化が中心課題であり、データ標準化は人間(データ管理者)の責任とされてきた。しかし、独立に構築されたDBでは同じデータでも異なる名称や表現形式を持つため重複の識別が難しく、また多数の大規模なDBを対象にした場合扱うデータの種類が数万と多いため、データ管理者の負担が大きく、これがDBを連携する上で最大の障害となっていた。

 そこで本研究では、多数の大規模なDBのデータ標準化にも適用できる効率的な支援手法、方法論、および支援ツールの構成を提案している。

 第1章は序論であり、本研究で扱う問題の定義、従来のDB技術におけるデータ標準化の位置付けと到達点、および研究の前提とアプローチを述べている。特に、データ標準化の最大の技術課題は、複数DB間での対応するデータの発見であることを述べている。

 第2章では、対応するデータの発見を支援する2つの手法を提案している。名称チェック手法では、発見の準備としてデータに分かりやすく一貫した名称を付与するため、名称の構文を命名規則を用いてチェックする。ここでは、従来からデータ管理者に重用されてきたDurellの命名規則に、名称がより一貫したものとなるよう追加拡張を行なうと共に、この命名規則を名称を構成する用語の辞書を用いて計算機によりチェックする方法を提案している。また、名称チェックの他のアプローチと比較して論じている。一方、所在案内手法は、データの名称を用いて内容が類似したデータの発見を支援する。従来の手法には名称が類似でも内容が異なるデータが類似と誤判定される問題があったので、ここでは、用語辞書を用いて内容の類似性の判定に役立つ用語のみを識別し、それを用いて精度よく所在案内を行なう手法を提案している。また、データの内容が類似であることの意味を論じている。更に、この2つの手法を支える用語辞書の構造についても提案している。最後に、これらの手法の有効性を定量評価している。

 第3章では、用語辞書を自然言語処理における係り受け解析を応用して機械的に構築する手法を提案している。名称に係り受け解析を適用して、名称を構成する語、品詞種別、意味カテゴリを抽出し、それに提案手法を適用することにより、用語辞書を構築できることを示している。また、第2章の命名規則では日本語特有の係り受けに対応できないことがわかったので、これを拡張し、その有効性を定量評価している。

 第4章では、DB設計者とデータ管理者の分担を前提に、大規模DBにも適用できるデータ標準化の方法論、および、方法論を具体化する分散したデータ標準化支援ツールの構成を提案している。この方法論では、名称チェック手法を用いて名称を整備し、その結果に所在案内手法を適用するという手順により、独立に曖昧な名称付与を行なったDB間でもデータの重複の発見を可能としている。また、支援ツールの機能構成とディクショナリ構成に関する他のアプローチについて論じている。

 第5章では、データ標準化に関するデータを蓄積するためのディクショナリシステムの機能要件を明らかにし、それに基づきISOのIRDSを拡張したディクショナリシステムの操作系を提案している。この操作系では、データ標準化を実施するプロジェクトや、データ標準化の進捗状況を管理する機能を拡張している。また、これらの機能の試作結果に基づき、より利便性を高める更なる機能拡張について言及している。

 最後の章は、本研究のまとめと今後の課題について論じている。また、提案したデータ標準化支援ツールを試作し実際に大規模DBのデータ標準化に適用した結果に基づき、有効性を確認している。

 以上を要するに、本研究は、データ標準化を計算機を用いて効率的に支援する手法、方法論、および支援ツールの構成を初めて体系化し、その有効性を定量的に示している。その点で、本研究はDB技術における新しい分野の工学的基礎を形成するものであり、その成果はDB技術のみならず情報システム構築技術の一環として工学全般に寄与するところが大きい。よって、本論文は、博士(工学)の学位請求論文として合格と認められる。

UTokyo Repositoryリンク