No | 119537 | |
著者(漢字) | ||
著者(英字) | BUN,KHOO KHYOU | |
著者(カナ) | ブン,クー キュウ | |
標題(和) | WWW上でのトピックトレンドの探知とマイニング | |
標題(洋) | Topic Trend Detection and Mining in World Wide Web | |
報告番号 | 119537 | |
報告番号 | 甲19537 | |
学位授与日 | 2004.03.25 | |
学位種別 | 課程博士 | |
学位種類 | 博士(情報理工学) | |
学位記番号 | 博情第18号 | |
研究科 | 情報理工学系研究科 | |
専攻 | 電子情報学専攻 | |
論文審査委員 | ||
内容要旨 | WWW(Web)では膨大な量の情報が常にダイナミックに変わるため、そのオンライン・トピック検知およびトラッキングの研究は重要で挑戦的になって来ている。本研究の目的はWeb上の変化を捕らえて分析することができる技術を提案することである。言い換れば、本研究のゴールは豊富な量の情報源を持つがダイナミックに変わるWeb上の変化の主要なトピックを検知して、追跡する問題に取り組むことである。 Webは大量の情報が流通・蓄積・共有される、最も重要なチャンネルとして出現しており、Web自体も世界で最も大きなネットワークにつながれた情報記憶機構になっている。しかしながら、Webの高度成長は止まらず、その情報は膨張し続けている。従って、膨大な量の新しい情報あるいは変化は、Webにダイナミックに付け加えられている。情報化時代での競争力を持つために、これらの新しい情報は不可欠であり、遅滞なく入手することが重要になる。しかしながら、手動でブラウズすることにより変化を見つけることは非効率かつ非現実的である。したがって、多くの変化の中に埋まれてる価値のある情報を収集、処理してユーザへ伝達する知的な情報システムが不可欠となる。Web上これらの情報変化は2つのタイプに分類することができる:即ち「フロー」タイプと「ストック」タイプ情報である。我々の研究は、Web上の変化を検知し追跡するためのフレームワークを提示することであり、本論文は、Web上の新しい情報(変化)の自動ジャーナリズムに関するアプローチを示している。「フロー」タイプ情報(例えばニュース)は、定期的で高頻度にWebに現れる。これに対して、我々は与えられた幾つかのニュース・チャンネルのニュース・アーカイブから重要なトピックを検知し要約するためのシステムNews Topics Summarizerを提案している。このシステムは新しいTF*PDF (Term Frequency * Proportional Document Frequency) アルゴリズムを使用して、トピックの単語の重みを計算して、これらの単語の重みを分析することにより、重要なトピックを検知する。このTF*PDFアルゴリズムは、多くのニュース・チャンネルでの多くのドキュメントの中でトピックについて説明する単語へ高い重みを与える。異なるトピックからの単語グループでは、それらの単語の重みは異なる特性を示すことがある。一時的な話題のトピックについて説明する単語は、ある時間枠中の正の値の系列が続いた後に負の値の系列を示す。これらのトピック単語およびその出現の時間枠を認識した後に、トピック時間枠に現われる重要な文を用いて文ベクトル・クラスタリングを行うことにより、トピックの要約を生成する。このようにして、本システムは各トピックをカバーするよい要約を作成でき、ユーザに主要なトピックに関する要約の報告を定期的に提供することが出来る。この問題の領域において、このアルゴリズムは従来のTF*IDFアルゴリズムより効果的で、過去分のWebコーパスを必要とせず、かつトピックの検知およびトラッキングの軌跡を失う危険性が少ない。その上、我々のシステムは高い柔軟性を持ちながら所有計算量は少ない。このシステムは、Webを周回(クロール)し、更新情報を集め、ユーザに新たに出現したトピックの要約を記事として提供する。これはWeb上の個別化された電子ジャーナリスト(e-journalist)となり、定期的に新しい出来事の収集とその電子出版化(e-publication)を可能にするものとなろう。 「ストック」タイプ情報(主に静的Webページ)は予測できずに変わる。したがって、モニタリング・システムはユーザが興味のあるページあるいは情報領域を常にチェックし、変化を報告することが要請される。従来のWebモニタリング・システムは変化が発生したWebページのURLを単に知らせるものが多いが、あまり無意味の変化を知らされるのは良くないので、我々はある特定分野をトラッキングし、価値のある変化を報告する知的なシステムETTS(Emerging Topic Tracking System)を提案し、構築している。ユーザの入力キーワードに対して、ETTSがキーワードを表わすWeb上の情報エリアを見い出して、定期的にこのエリアを周回し変化を収集する。その後、TF*PDFアルゴリズムを用いて新規トピックを表す単語を抽出して、これらトピック単語を含んでいる重要な文に基づいてで要約を生成する。簡潔に述べると、ETTSシステムはWeb上の知的なエジェントとして、ユーザの興味のある情報分野の変化を検知し、変化の要約を生成する。この変更の要約は、その特定な分野におけるホットな話題を提示することによって、その情報分野の新規に出現しつつあるトピックを明らかにする。このシステムを用いることにより、我々はWWW情報空間の最新の傾向について常に知ることが出来る。 | |
審査要旨 | 本論文は「Topic Trend Detection and Mining in World Wide Web (WWW上でのトピックトレンドの探知とマイニング)」と題し,7章から成り,英文で記されている. 第1章「Introduction」では,社会におけるグローバルな情報流通,蓄積,共有の基盤に成長したWWW(Web)では,サーチエンジンが情報探索の中心的役割を果たしているが,Web上に新規に出現する情報が高い価値をもつことから,それらを自動的に検知し,主要なトレンドを要約して提示するシステムの必要性があることを記し,本研究を行った動機になっていることを述べている.同時に本論文の構成を示している. 第2章「Web Intelligence and Data Mining」では,関連のある研究領域としてWebインテリジェンスとデータマイニングを挙げて,動向を記している.本論文の内容に特に関係するWeb上の変化監視システムの研究開発例として,7種のシステムを挙げて説明している.これらのうち,WebBeholderは著者の研究グループにより開発されたものであり,本研究の先行研究に当たることになる.また,本研究と関係する新種のWeb crawler(Web robot, spiderとも称される)の研究開発例についても示し,特定のトピックに注目してWebページを探索するシステムなどについて紹介している. 第3章「Topic Trends Detection and Tracking」では,Web上のトピック検知とトラッキングに関係する基礎技術を挙げ,システム化する際に必要な他の要素技術と構成について記し,考察している.テキスト変化分を分類するに際し重要な役割を果たすのが,出現単語によるベクトル空間モデルと,TF*IDF (Term Frequency*Inverse Document Frequency)を代表とする単語重み付けである.他所での関連したシステム開発例も挙げている. 第4章の「Automatic Online Journalism」では,これまで社会に起きた出来事や情報は新聞,雑誌といったジャーナリズムが分類,整理して多数の人々に届けてきたように,Webの世界でもそのような機能の必要性があり,またその機能はこれまでの主に人手によるジャーナリズムとは異なり,大半がコンピュータによって自動化される形態になることを述べ,本研究もそのような形態へ向けての研究であると位置付けている.そのようなWeb上の自動オンライン・ジャーナリズムに向けて必要な技術要素として,テキスト文書のクラスタリングと識別,複数文書の要約についての検討を示している.また,このような自動オンライン・ジャーナリズムを指向するシステム例として,Google News等を挙げている. 第5章と第6章ではWeb上の情報をフロー型情報(典型的にはオンライン・ニュースなど)とストック型情報とに分け,フロー型情報,ストック型情報,それぞれの新規情報の検知と要約を行う研究開発したシステムについて記している. 第5章「Flow Type Information Topic Detection and Summarization」では,Webのフロー型情報を対象にして開発した,主要トピック検知・要約システムについて記している.システムは複数のWebオンライン・ニュースを情報ソースとし,主要なトピックは多数のニュース文に出現すると仮定し,その検知と関連事項の要約を作成する構成になっている.複数情報ソースのニュース文から上記のような主要トピックを検知するに際し,新たに導入したTF*PDF (TF*Proportional Document Frequency, IDFとは逆に該当の単語を含む文書数の指数に比例する量)による出現単語の重み付けが有効であることを示している.要約文は,これにより重み付けされた単語により文の重みを求め,重み上位文を単語ベクトルによりクラスタリングし,それに基づき生成する構成となっている.作成したシステムの主要トピック検知と要約の効果を4種のオンライン・ニュースソース(Associate Press, The New York Times, Reuters, USA Today)を用いて評価,検証している. 第6章「Emerging Topic Tracking System(ETTS)」では,関心を持つ領域を表す指定したキーワードに関係するWebページを対象とする,ストック型Web情報の新規更新情報を整理し要約を生成する,ETTSと名付けたシステムについて記している.この場合,関連するWeb情報はキーワードが出現しているWebページだけでなく,リンクで結ばれた子ページ,孫サブページ,兄弟ページにも掲載されることが多いことを考慮し,これらのWebページも更新検査の対象にするようにしている.差分によって検知された新規更新情報の整理と要約は, TF*PDFを利用する前章の方法と同様にして作成される.作成したETTSの効果の評価と検証を,幾つかのキーワード(“アジア経済”,“原子兵器”,“eコマース”)で表される領域について示している.関連システムとの差異についても言及している. 第7章は「Conclusion」であり,本論文の成果をまとめている. 以上を要するに,本論文は社会における膨大な情報の流通,蓄積,共有の基盤となってきたWWW(Web)において,情報価値が高い新規情報を検知し,主要なトピックを抽出,その要約を自動生成する手法とシステム化の技術を,フロー型情報(オンライン・ニュースなど),ストック型情報それぞれについて提示し,具体例を通じてその効果を実証したものであり,電子情報学上貢献するところが少なくない. よって本論文は博士(情報理工学)の学位請求論文として合格と認められる. | |
UTokyo Repositoryリンク |