
No 123941
著者(カナ) ヴー,クァンミン
標題(和) ウェブディレクトリを用いた人名の曖昧性解消に関する研究
報告番号 123941
報告番号 甲23941
学位授与日 2008.03.24
学位種別 課程博士
学位種類 博士(情報理工学)
学位記番号 博情第186号
研究科 情報理工学系研究科
専攻 電子情報学専攻
論文審査委員 主査: 東京大学 教授 喜連川,優
 東京大学 教授 安達,淳
 東京大学 教授 石塚,満
 東京大学 教授 浅見,徹
 東京大学 教授 近山,隆
 東京大学 准教授 豊田,正史
Recent advancements in computer technologies and network technologies have caused a new revolution in data communications. Cheap computers and high speed networks now can afford almost anyone to create information and to exchange information at low costs. The global internet and the World Wide Web (WWW) have brought people close together. At any second, many documents are created and updated in the WWW to reflect the dynamic changes in the real world.

As text documents in the WWW grow explosively, many users request to search for valuable information from the huge database of text documents. Among these requests of users, a certain amount of requests are to search for information related to people. Nowadays, it is very common to use search engines for the investigations and acquirements of valuable information. Upon receiving request queries from users, search engines look up in indexing databases for documents that contain query terms and return results to users. When using search engines to search for people, the issue of name ambiguity is a big problem. Since a personal name is often shared by several people, results from search engines often contain documents relevant to several people. Therefore, users have to manually look for the person of interests in the result sets.

In our research, we targeted the name ambiguity problem in web searches and developed a new method to separate the person of users' interests from other people automatically. We proposed to use web directories as additional information to improve the disambiguation performance. Web directories were collections of documents categorized in some topics. Several well-known directories already existed in the WWW and we could use them at low preparation costs. We proposed two approaches to utilize information in web directories. In the first approach, we used the directories themselves to extract contexts relevant to people in search result documents and used these contexts to disambiguate people in result documents. In the second approach, we first preprocessed web directories to extract topics contained in web directories. Then, we used these extracted topics for the extraction of contexts related to people in documents containing ambiguous names. We used several well-known web directories to disambiguate ambiguous names in real web documents. The experiment results showed that our approaches extracted contexts of people effectively and performed better than other name disambiguation approaches that used the vector space model method and the named entity recognition method.

本論文は、「A Study on Name Disambiguation Using Web Directories(ウェブディレクトリを用いた人名の曖昧性解消に関する研究)」と題し、英文6章から構成されている。ウェブ検索において人名に関する文書の集合の中から同姓同名の人物を識別するための方法について論じたものである。人物を識別するために、ウェブディレクトリを援用してウェブ文書の中のトピックを見出し、トピックを表す単語の共起を評価することにより精度の高い同定手法を提案するとともに、従来手法との比較を実験的に行い、またデモシステムを構成して評価・検証している。


第2章は「Related Researches」であり、人名同定に関する既存の研究やその他のテキストマイニングに関する研究をまとめ、種々の手法を紹介している。特に本研究と関連する課題として単語の語義曖昧性解消の研究と人名曖昧性解消の研究をあげることができる。既存手法のアプローチとして、機械学習、ベクトル空間法、キーワード抽出手法、固有名詞抽出手法などに基づいた曖昧性解消方法を比較している。そして、既存研究と本研究の違いを説明した後、既存手法をウェブ文書に適用する際に問題となる点をまとめている。

第3章は「Using Web Directories to Improve Context Extractions for Name Disambiguations」と題し、本論文で新たに提案する手法の詳細を説明している。まず問題の困難さについて一般的に論じ、それに沿って典型的なベクトル空間法の欠点を述べている。これを克服するために、知識ベースを使う方法を提案し、このアプローチに基づき、インターネット上で利用できる種々のウェブディレクトリを知識ベースとして活用する方法を提案する。ウェブディレクトリはトピック毎に分類された文書集合である。様々なレベルの分野に分かれて編集されているこれらの文書集合は、文書量が多く、またトピックを表す単語を見つけやすいという特徴を持つ。このトピック単語を活用して曖昧性解消に使うという点が、本手法の本質的な特徴である。ウェブディレクトリの特徴ベクトルの計算式および文書特徴ベクトルの修正式の導出について議論した後、文書の修正特徴ベクトルを用いて、文書間の類似度を計算するアルゴリズムを詳説している。

第4章は「Extract Topics in Web Directories for Improvements of Name Disambiguations」と題し、ウェブディレクトリに含まれるトピックを用いて、同姓同名の曖昧性を解消する方法を提案している。トピックを抽出するための手法として、 Latent Dirichlet Allocation(LDA)を紹介し、これをウェブディレクトリに適用する方法を述べている。本来の LDA 手法をウェブディレクトリに適合させるための改善方法を提案する。次に、抽出したトピックを用いて、文書類似度の計算方法を提案する。抽出したトピックに基づき、単語のトピック特徴ベクトルと文書のトピック特徴ベクトルを計算する。これらの特徴ベクトルを用いて、元の文書の特徴ベクトルを修正し、最終的な類似度を計算するアルゴリズムを提案している。


第6章は「Name Disambiguation Demo System」であり、提案手法を用いて同姓同名の曖昧性を解消するデモシステムを紹介している。デモシステムは提案手法の内部の特徴を把握しやすいように作られたもので、ユーザの質問をGoogle検索エンジンに転送し、検索結果をダウンロードする。そして、検索結果を並べ替えて、人名の曖昧性解消を行うというものであり、本手法を始めベースライン手法の相互比較を検証できるように工夫されている。




UTokyo Repositoryリンク http://hdl.handle.net/2261/28821