No | 116074 | |
著者(漢字) | 荻野,調 | |
著者(英字) | ||
著者(カナ) | オギノ,シラベ | |
標題(和) | インターネット環境におけるメタ・サーチエンジンに関する研究 | |
標題(洋) | ||
報告番号 | 116074 | |
報告番号 | 甲16074 | |
学位授与日 | 2001.03.29 | |
学位種別 | 課程博士 | |
学位種類 | 博士(工学) | |
学位記番号 | 博工第4911号 | |
研究科 | 工学系研究科 | |
専攻 | 電子情報工学専攻 | |
論文審査委員 | ||
内容要旨 | インターネットの普及はとどまるところを知らない。多くの新技術がそうであるように登場してすぐに実用となるわけではない。やっとメディアとしての基盤ができあがっても、その利用法が試行錯誤されている状況は今でも変わっていない。インターネット利用者の急増は「鶏と卵」の相乗効果の結果であり、より良い・より興味を引く・より実用的な情報発信が行われるに連れ、これまではあまり興味を持たなかった層も加わってきている。インターネットで提供されるべきサービス・必要とされているサービス・提供方法など、これまでと違った世界に適応していく必要がある。既存のインターネット上での情報検索サービスであるサーチエンジンは過去の文書検索技術を基にして、単にネット上のホームページをかき集めてインデックス化しワードマッチングしていることが多いが、このままではユーザーのニーズに応えられずに、数年以内には消滅してもおかしくない。 これまでの文書検索技術としてワードマッチングが主に用いられてきたのにはもちろん理由があるが、暗黙の了解事項として「少量の文書」「精度の高いインデックス化」「適切なキーワード」を定めていたと言える。既存アルゴリズムは文書と文書の関連精度を計算し、それに基づいて高精度の文書検索を行おうという手法が多い。この手法の場合、比較対象となる文書がユーザーの要求を正確に表したものである必要があり、また複雑な過程に時間がかかるだけの結果が得られているか、という疑問がある。実際のところ、インターネットにおける対象文書数は非常に多いため時間はなるべくかけないで済むアルゴリズムでなければならない。またユーザーが入力するキーワードは平均1.5語であり、これだけでユーザーの要求を正確に読み取るのは非常に難しい。つまり既存のアルゴリズムでは、インターネットのような文書群を対象とした検索プログラムとしては、不十分もしくは不適切と言える。インターネットという新しい社会に合わせた新しいアルゴリズムを開発する必要があるのである。 まず、インターネットを文書母体とした検索システムにはどのような性質が備わっている必要があるかを列挙する。 ●大規模データベースに対応する省容量インデックス化手法 ●大規模データベース上の高速インデックス検索技術 ●データのfreshnessを保つ高速アップデート機構 ●高速かつ精度の高い応答速度 ●少ないキーワードからユーザーの意図を予測するアルゴリズム ●関連精度が高い文書のみに回答を絞り込む技術 メタ型の場合、自分ではデータベースを持たないので、1、2、3番目は従来型サーチエンジンに依存する。これらは十分な成熟度にあるので、問題となる4、5、6を実現できればインターネットにふさわしい検索技術と言える。 メタ・サーチエンジンは次のような仕組みで動作する。以下に検索の流れを説明する。 メタ・サーチエンジンはユーザーからキーワードを貰うとそのままサーチを実行するわけではなく、ユーザーのニーズを予測し、適当なキーワード群に置き換える。この作業は専門用語抽出や類義語辞典、単語間関連性度データベースを用いて行われる。そしてその生成されたキーワード群を用いて各サーチエンジンにqueryを送る。このqueryの生成は各サーチエンジンの持つオプションを最大限に利用した形となる。 受け取ったリストに含まれるリンクが必ずしもユーザーの求めているものとは限らない。デッドリンクの除去とともに各リンクページをretrieveし、キーワード等のチェックを実行する。もし関連性度が低いと判断された場合にはリストから外す。 以上の作業を行うのがメタ・サーチエンジンであり、その中の一つ一つのサブ・プログラム(例:適当な検索語の選定、関連性度の算出)をいかに考えていくかがメタ・サーチエンジンとしての性能の善し悪しとなる。 本論文で提案するSmartSearchは、動作速度と出力精度のバランスを取ることを目的として開発された。いろいろな要素が考えられ、どれを選択して実装するかが重要な鍵となるが、現在のSmartSearchにはメタ・サーチエンジンには常に搭載される基本的な要素に加えて、以下のものが実装されている。 ●同一WWWサーバー上にあるデータの数 ●専門用語かどうかによって検索領域を限る ●どの従来型サーチエンジンが出したリンクかにより信頼性度を掛け合わせる ●ホストのタイプ(com、edu、org、etc.)から情報の種類を推測 ●URLの長さによって重要性を推測 ●デッドリンクを削除 ●同一情報源の場合、結果を一つに限定 ●サブ・メタサーチの統合 以上をまとめてSmartSearchの処理フローを図にすると下のようになる。 既存の検索アルゴリズムと同様に、既存の評価方法もインターネット上の検索システム評価へと拡張するには無理がある。いずれも従来の手法である再現率(recall rate)と適合率(precision rate)を元にした新しい評価基準を設け、SmartSearchを含むインターネット上のサーチエンジンを比較した。 対人評価基準は以下の式で表される。 一方、従来型サーチエンジンをメタ・サーチエンジンの元データとした場合の価値を計る評価基準(対MSE評価基準)は以下の式となる。 この評価の結論としてメタ・サーチエンジンの効果がどう得られているかを前節の結果を元に分析してみる。 ●「dead link」が多い対人評価の悪いサーチエンジンでもその中にある価値の高いリンクを抽出して利用できること ●登録型サーチエンジンのようにカテゴリー別に仕分けされたサーチエンジンの場合、そのカテゴリーを指定して検索することによって関連性度の高いリンクを抽出できること ●従来型サーチエンジンの持つ得手不得手分野を吸収することで、よりばらつきの少ない安定した結果を出すことができること。 評価結果より、SmartSearchがメタ・サーチエンジンの長所を生かしながら極めて良い結果を出していることを示した。しかしながら、一部のケースではまだ力が及ばないものがあった。これに対応する方法は主に2通りあり、一つはユーザーのキーワードから連想されるテーマを再度ユーザーに問い合わせることでテーマの限定を行う場合、もう一つはユーザーが探索したいエリアを最初から指定することによって対象となる文書を限定する方法である。どちらも従来のサーチエンジンにおいてオプションとして提供されている機能であり、目的に応じた使い方には十分答えてくれるものではあるが、大きな難点がある。 それはユーザーに多くの情報を要求しているということである。 SmartSearchにおいてこの問題に対する対処を次のように行う。まず、個々の分野のメタ・サーチエンジンの能力を高めることを目標とする。これまでの「General SmartSearch」では少なくとも関連する文書へのリンクが得られれば、十分としてきたが、個々の分野のみを対象とするDomain-OrientedなSmartSearchにおいては出力されたぺージの重要性が十分なものであるかを吟味することを最終目標とする。ユーザーは「General SmartSearch」にキーワードを入れるだけで、その内容が適切な「Sub-SmartSearch」に送られ、結果を返すことが可能となる。この機構を可能ならしめるためには、「General SmartSearch」における振り分け技術の開発と、各分野の「Sub-SmartSearch」の充実を図る。 現在、国連大学高等研究所と東京大学生産技術研究所は、相互協力・技術提携関係にあり、その一環として著者も国連大学の電子大学計画(Virtual University Project)に参加している。このため実際にEducational SmartSearchを作成し、以下のようなアルゴリズムをインプリメントしている。 ●学術系サイトの優先 ●電子図書館への問い合わせ ●学術系用語の有無をチェック Educational SmartSearchを用いることによって学術関係の検索キーワードに対する評価が高くなったのはもちろんのこと、General SmartSearchが出力する結果とは違うものが得られており、情報の幅を広げるという意味でも効果が出ている。携帯端末のように情報のやり取り自体が制約されるような端末が普及し2000年現在で4000万台に上り、PCからのアクセスを数倍追い越した。このような端末からの利用を視野に入れた場合、ここの分野別のSub-SmartSearchがユーザーの満足度の高い結果へと導くと考えられる。 Fig.1:メタ・サーチエンジンの仕組み(1) Fig.2:メタ・サーチエンジンの仕組み(2) Fig.3:メタ・サーチエンジンの仕組み(3) Fig.4:SmartSearchのアルゴリズム | |
審査要旨 | 本論文は、「インターネット環境におけるメタサーチエンジンの研究」と題し、急速に進展しているインターネット上の情報から利用者が必要とする情報検索を的確に行うために、既存のサーチエンジンによる検索を高機能化するためのシステム(メタサーチエンジン)の新しい方式を提案・評価したもので6章から構成されている。 第1章は、「序論」であり、急激に増大するウェブ情報からの検索技術の確立という研究の背景、本研究が必要とされる理由、本研究の目的について述べている。 第2章は、「従来型サーチエンジン」と題し、サーチエンジンに関連する背景技術と従来型サーチエンジンの持つ限界を示し、サーベイし、メタサーチエンジン導入の必要性を明確にしている。 第3章は、「メタサーチエンジン」と題し、既存のメタサーチエンジンの分析に基づいて、本論文で提案する新しいメタサーチエンジンの主要機能を明確にしている。即ち、一般的なメタサーチエンジンのアルゴリズムを分析し、情報間の関連性度を重視するアルゴリズムを導入した新しい方式(スマートサーチ)を提案し、具体的実現アルゴリズムを示し、その特徴を解析して、期待される結果を述べている。 第4章は、「サーチエンジンの評価」と題し、第3章で提案した「スマートサーチ」の評価を行っている。即ち、従来の定型文書検索の分野での評価方法を拡張したインターネット文書検索の評価手法の提案を行い、それを用いて提案手法であるスマートサーチを他の一般的なサーチエンジンと比べることによって、有効性を実証している。また、従来型サーチエンジンと提案するメタサーチエンジンとの相関関係についても考察している。更に、スマートサーチ及び従来型サーチエンジン特性の評価の経時変化の分析を行いサーチエンジンの変遷と方向性を分析している。 第5章は、「サブ・スマートサーチ」と題し、前章までに示した利用目的のサーチエンジンの限界を打破するため、分野等を限定した方式、サブ・スマートサーチを提案している。より関連性度を上げるための手法の提案、及び、その応用例としての、2つの具体的個別応用(国連大学との共同プロジェクトにおける教育利用と、普及が著しい携帯端末からの利用に特化したシステム)を提案し、システム構成の検討と考察を行っている。 第6章は「結論」であり、本研究の成果を要約すると共に、今後の課題を明らかにしている。 以上これを要するに、本論文は、インターネット環境における複数のサーチエンジンの利点を統合する新しいメタサーチエンジン及び分野を特定したサブメタサーチエンジンを提案し、有効性を実証したものであり、電子情報工学上貢献するところが少なくない。 よって、本論文は博士(工学)の学位請求論文として合格と認められる。 | |
UTokyo Repositoryリンク |