学位論文要旨



No 123050
著者(漢字)
著者(英字)
著者(カナ) リオス,セバスチァン アレハンドロ
標題(和) ウェブサイトオフライン改善のためのウェブマイニング技術に関する研究
標題(洋) A Study on Web Mining Techniques for Off-Line Enhancements of Web Sites
報告番号 123050
報告番号 甲23050
学位授与日 2007.09.28
学位種別 課程博士
学位種類 博士(工学)
学位記番号 博工第6667号
研究科 工学系研究科
専攻 先端学際工学専攻
論文審査委員 主査: 東京大学 教授 堀,浩一
 東京大学 教授 馬場,靖憲
 東京大学 教授 森川,博之
 東京大学 准教授 中村,宏
 東京電機大学 教授 安田,浩
 東北大学 准教授 青木,輝勝
内容要旨 要旨を表示する

WWW(World Wide Web)は20世紀において実現された最も大きな成果のひとつであるといえよう。今日、Webなしにコンテンツビジネスやエンターテイメントサービスを行うことは不可能な状況となっており、近年、企業でも考え方に変化が見られ、単にオンライン広告としてWebサイトを開設したり、ある種のファッションとしてWebサイトを開設するといった態度から、ビジネスを遂行するための新しく、大規模で簡潔な手法としてWebを捉えるようになっている。

毎日、たくさんの人々がインターネットに接続し、その中にはblogやVlogそして自身のWebサイト等を使ってWWWを上手に利用している人も少なくない。彼らのうちの恐らく全員が検索エンジンを用い、また、その中にはWWWを通じて製品やサービスを購入したり、自宅のリビングから映画を借りたり、ビデオ会議クライアント(OpenWengo,Ekiga等)を使ってインターネットを通じてビデオ会議を行ったりしている人もいる。あるいは、家族や友人と非常に低価格もしくは無料でコミュニケーションを取っている人もいる。このような背景からインターネット上のサービスの数はインターネット利用者数と同様に爆発的に増加している。

WWWはインターネットとHTML(Hyper Text Markup Language)の結合によって創出した技術であるが、この非常にシンプルなアイディアにより、誰もが自身の文書を発信できるようになったのである。一昔前は単純なHTMLでのプログラミングを行い、そのファイルをサーバにアップロードしていたが、その後、特定のツールを使うことにより、HTMLプログラミングやFTP(File Transfer Protocol)その他のことを何も知らなくても、非常に簡単にWeb文書を作成できるようになった。これによって、Webページ、Webサイト、Webポータル等の大増加が生じ現在に至っている。しかしながら、これは同時に、ラベル化も構造化もされていない、いわば役立つ情報を探し出すのが極めて難しい情報が大量に生み出されている、という事態を招いている。さらに、たとえユーザが興味深いWebサイトにたどり着くとしても、それを閲覧する際にどうしたら迷子にならないのかを知る手段がないという状況になってしまっている。

今日、WWWはいわば「文書の山」であり、何らかの情報を探そうとする人誰もがまず最初に莫大な無益な情報の山から有益な情報を探すことから始めなければならない。この状況はインターネットの普及がこのまま続けば年々ますます悪くなってゆくことは容易に予想される。一方、これらの問題を解決するためにセマンティックWebの開発も進められているが、今後10年でそれが立ち上がることは期待できないのが実情である。この新しいWebシステムはユーザに対しより簡単な方法で大量の情報にアクセスする手段を提供し良い検索結果を得られるようにするものであり、各Web文書本体のみならず、そのデスクリプション(メタデータ)をもXML形式で記述しようというものである。このため、セマンティック検索エンジンのようなソフトウェアでこの情報を読み取り、検索者の希望する検索結果をより関連の深い検索結果を返すことが可能となるが、上述の通り本技術は今日明日に使えるようになるものではない。

システム管理者ならびにWebを開設する組織にとって最大の課題は旧来からの顧客を維持し、新しい顧客を獲得するために"優れた"Webサイトをどのように立ち上げるのか、あるいは別の言い方をすると、継続的に顧客がこのWebサイトに戻ってくるようにするために顧客に価値ある情報を与えられるサイトをどのように立ち上げるのかということである。これはビジネスの視点に立った場合最も基本的な問題のひとつであるといえる。と言うのも、新しい顧客を得るコストは既存の顧客を維持するよりもずっとコストを要するからである。

この課題は解決が極めて難しいものであるが、この課題は以下の問題に分割することができる。一つ目は、ユーザが混乱することなしに簡単にサイト内の情報にアクセスできるビジユアルデザインをどのように行うかということである。そして2つ目はユーザが必要な情報、製品、サービスをどのように与えるのか、ということである。そして3つ目に簡単かつ不明瞭でないブラウジングのためにWebコンテンツの構造をどのように改善するのか、ということである。

Nielsen氏はWebサイトにおけるユーザビリティの問題について論じており、また、Webサイトの有効性や効用がユーザビリティと強く相関している、という論を展開している。このとき、Webインターフェースに加え、サイトの構造やコンテンツを改善することによりユーザのブラウジングを効率的にすることも可能である。ユーザは自身である範囲のWebページ内で(あるいはある回数内のクリックで)必要な情報を見つけられない時、別のサイトに飛んでしまうのが常だからである。

これまでWebのサイト構造ならびにWebコンテンツを改善することによりWebサイトのユーザビリティを向上させることができるという研究事例はいくつか存在している。しかしながらこれらの問題は解決方策の良し悪しが通常主観評価で行われているという点である。また、別の研究事例として、Webサイトのコンテンツや構造自体をWebマイニングやKDD(Knowledge Discovery in Database)処理等の別の技術を使って行うというものもある。しかしながら、現状"唯一の"評価法として認められている手法は存在していないのが実情である。

この解決を図ろうとしている多くの研究者は、目頃Web管理者が直面しているこれらの問題のいくつかを解決すための方法と手法を開発している。これらの手法は一般にWM(WebMining)という名前で呼ばれており、この四はWebシステム(Webページ、Webログ、Webプロファイル等)上のデータに対するデータマイニング技術の一応用と位置づけられている。しかしながら四分野における研究はより良い検索結果を得るためにまだまだ多くの解決すべき課題が残されている。

また、移ろいやすいユーザの要求を企業側が満足させるためにはこれらすべての改善が迅速かつ簡単に行われなければならない。これは企業間競争に勝ち、企業の生き残るための至上命題であると言える。

本論文では、以上のような背景のもと、剛技術とKDD技術を用いてWebサイトの構造をならびにコンテンツを向上させるための最新技術について研究開発することを目的としている。本論文では特にWebサイトの構造、内容、構成について劇的な変化をもたらすオフライン処理に焦点を当てたものである。

審査要旨 要旨を表示する

近年、Webは単なる個人の情報発信のツールのみならず経済活動においてもきわめて重要な地位を占めており、自身のWebサイトをいかに向上させてゆくかは個人、企業問わず最重要課題のひとつとなっている。本研究はこの問題を解決するために、オフラインエンハンスメントのためのWebマイニング手法について焦点をあてたものである。

第1章では、Webサイトのコンテンツならびに構造の定期的なエンハンスメントの重要性について述べている。また、エンハンス手法としてオンライン型とオフライン型について言及し、本論文の目的を明確化している。

第2章では、Webサイトのオフラインエンハンスメントに関する一般的なフレームワークを導入している。それを行うために、まずWorld Wide Web(WWW)技術の概要を記し、続いてオフラインエンハンスメントのための最新のWebマイニング処理を紹介している。その後、この問題(例えば、文書クラスタリング、文書分類、コンテンツクラスタリング、コンテンツ分類、セッション再構成、セッションクラスタリング、セッション分類など)を解決するために共通的に使用されているいくつかのWebマイニング手法について簡単に紹介している。またリコメンデーションアルゴリズムについても論じている。そして本章の最後に、この研究を進めるにあたっての主たる問題について説明している。

第3章では、Webサイトのオフラインエンハンスメント手法を改善するための新しい提案を行っている。これは、既存のオフラインエンハンスメント手法にコンセプトベース知識発見処理を組み合わせたハイブリッドシステムとして構成するという提案である。本章では、このシステムについてさまざまな側面から詳細に述べるとともに、ユーザがどのようにWebサイト改善のための情報を得られるのかについて説明している。また、コンセプトベース処理の結果を後処理するためのRCA(Reverse Cluster Analysis)について提案している。このRCAを用いることにより、ユーザ(Web改善を行うための分析者)は発見されたパターンから価値ある情報を得ることができるようになり、このような情報を発見するための労力を削減できることを示している。

第4章では、評価フレームワークを導入し、本論文での提案方式を評価するためにこの評価フレームワークをどのように使うのかについて論じている。続いて、提案方式についていくつかの実験結果を示し、既存方式との比較が行われている。その後、評価結果について論じ、提案方式の効果と有用性が示されている。

最後に第5章では、本論文の結論と今後の課題についてまとめられている。

以上のように、本論文では、WebマイニングやKDD(Knowledge Discovery in Database)処理を用いてWebサイトのコンテンツならびに構造をを向上させる手法を提案し、その結果を実験により評価して既存のオフラインエンハンスメント手法よりも優れていることを証明しており、その内容は学術的価値ならびに産業利用上の価値が高いものである。

よって本論文は博士(工学)の学位請求論文として合格と認められる。

UTokyo Repositoryリンク