学位論文要旨



No 125117
著者(漢字) 古川,忠延
著者(英字)
著者(カナ) フルカワ,タダノブ
標題(和) ウェブにおけるユーザの行動に着目した嗜好の分析と推薦手法の研究
標題(洋)
報告番号 125117
報告番号 甲25117
学位授与日 2009.03.23
学位種別 課程博士
学位種類 博士(情報理工学)
学位記番号 博情第243号
研究科 情報理工学系研究科
専攻 創造情報学専攻
論文審査委員 主査: 東京大学 教授 石川,正俊
 東京大学 教授 竹内,郁雄
 東京大学 教授 石塚,満
 東京大学 准教授 稲葉,真理
 東京大学 准教授 松尾,豊
内容要旨 要旨を表示する

近年のウェブコンテンツは,ウェブ掲示板やブログの他,mixiに代表されるソーシャルネットワークサービスや,YouTubeやFlickrのような画像共有サービス,はてなブックマークやdel.icio.usなどのソーシャルブックマークなどの流行に見られるように,増加・多様化の一途を辿っている.ウェブを閲覧するユーザにとって魅力的なコンテンツの増加は好ましい事態であるが,反面,情報の増加により有用なコンテンツへのアクセスが困難になることも危惧される.こうした情報の氾濫への解決策の一つとして,これまで多くの情報推薦手法が提案されてきた.情報推薦とは,ユーザにとって有用と思われる対象,情報,または商品などを選び出し,それらを利用者の目的に合わせた形で提示することである.多くは内容の類似性や統計的な行動傾向,世間の流行・評判などに基づいて情報を推薦しようというものであり,特にオンラインショッピングサイトでは推薦サービスが積極的に取り入れられてきた.本論文では,こうした情報推薦システムを構築する上で手助けとなる情報を,ユーザの行動の蓄積から推測することを目的としている.本論文は大きく分けて3つの研究から成る.(1)ブログにおける社会ネットワークと閲覧行動の分析,(2)ブログ上の情報伝播に基づく話題抽出,(3)ユーザの行動の遷移に基づく情報推薦手法の研究,である.以下にそれぞれについての紹介を述べる.

(1)について.近年,個人による情報発信の一形態としてブログが注目を集めている.ブロガー(ブログユーザ)は自身のブログに日々個人の体験や意見を記事として投稿するのと同時に,他者のブログを読んではコメントを残したりトラックバックを送ったりするほか,他者の記事を自身の投稿の際に引用したり,気に入ったブログをブログロールに加えるなどの形で紹介したりする.これらの行為はユーザ間のインタラクションとしてブログ間に様々な関係を形成し,ユーザの振る舞いやコミュニティ構造,情報伝播を特徴付ける興味深い情報源となり得るものであり,これまで多くの研究がなされてきた.本研究ではこうしたブログ間の関係や閲覧行動の特徴を包括的に分析した上で,それらの間の関係を調査する.ブログ間関係を素性としてユーザの閲覧行動を予測することができれば,ユーザが見たい記事やブログを推薦することができると考えられる.ブログホスティングサービスのデータベースを利用した実験を行っているため,ユーザの行動ログを利用した分析ができるのが特長である.結果として,ユーザが定期的に閲覧しているブログを定量的に定め,閲覧行動がユーザの投稿する記事に影響を与えていること,そしてそうした閲覧行動が様々な関係から予測できることを裏付けるデータを得られた.

(2)について.これもブログを用いた研究である.前述の通り,ブログ上では日々コンテンツが更新されては,他のブロガーを巻き込んでの議論が行われており,ブログ間に情報が普及していく.こうした情報の普及を分析すること,例えばトレンドやオピニオンリーダーを抽出することは情報の効率的な伝達を実現する上で重要である.本研究ではブログにおけるこうした話題伝播を解析することによる話題語の判別手法を提案する.ブログにおける話題伝播が語とブロガーの影響力によって起こるという仮説の下で,ブロガー間の話題伝播を表現する行列を特異値分解することによって,それぞれの影響力を算出し,強い影響力を持つ語を重要語と判別するものである.本手法により,突発的に多くのブログ上で盛り上がる話題だけでなく,嗜好のあったブロガー間で継続的に言及されている話題の抽出をすることが可能である.

(3)について.この研究ではソーシャルブックマークやオンラインショップのデータを対象として,推薦手法の研究を行っている.広く用いられている推薦手法として,協調フィルタリングがある.これはあるユーザに対して推薦を行う際に,嗜好の類似した他者の行動から推薦する情報を選択するものである.しかし,日々大量の新しいアイテムが追加され,情報が更新されるウェブサービスにおいては,より新しく,かつ本当に需要のあるアイテムをいち早く発見できる推薦システムが求められる.そこで本研究では,ユーザの採用行動(オンラインショッピングにおける購買,ソーシャルブックマークにおけるブックマーク)についてその遷移過程に注目してユーザが気に入るアイテムを予測する手法を提案する.アイテムに対する採用のユーザ間の前後関係,ユーザの採用行為におけるアイテム間の前後関係の特徴をそれぞれ遷移過程モデルで表現し,それらを組み合わせるという形式である.この手法により,ユーザが未来に採用するアイテムを,既存の推薦手法に比べて高い精度で予測することに成功した.

審査要旨 要旨を表示する

本論文は「ウェブにおけるユーザの行動に着目した嗜好の分析と推薦手法の研究」と題し,6章から成る.

第1章は「序論」であり,ウェブは近年,情報流通,共有の重要なインフラになってきたが,情報過多,氾濫の状況も見られるようになり,利用者に必要な情報を適切に提示する推薦システムが必要になってきているという,本研究の背景を記している.そして本論文は,このような情報推薦機能を実現する上で有用な情報を,ユーザ行動の蓄積から抽出することを目的とした,以下の3つの研究について記している.(1)ブログにおける社会ネットワークと閲覧行動の分析,(2)ブログ上の情報伝播に基づく話題抽出,(3)ソーシャルブックマークを対象としたユーザ行動の遷移に基づく推薦手法の研究.

第2章「ブログネットワークの調査」では,次章のブログ閲覧行為を判別する際に用いる素性である,ブログのコメント,トラックバックといった繋がりが有する性質を,ネットワーク分析の視点から調査している.文献調査と共に実ブログデータによる解析も行っており,関係を持つネットワークのSmall World 性,Scale Free 性,推移律,双方向性,QAP(Quadratic Assignment Procedure)相関性,その他性質について示している.そして,ブログ上では多くの繋がりを集めるハブ的なユーザが存在すること,関係の種類によっては繋がりが生じると逆方向の繋がりも形成される可能性が高いこと等を示している.

第3章「ブログにおける閲覧行動分析」では,実ブログデータ解析により定期的な閲覧関係(RR 関係)を中心にして,その価値や社会的関係との関連性を調べている.そして,例えばユーザは3度以上訪問したことのあるブログのうち50%に対して,システムへのログイン5回に1度以上の頻度で訪れ,同80%のブログに対してはログイン13 回に1度以上の頻度で訪問しているといった統計量を見出している.次いで,RR 関係がどのように情報の普及に影響しているのか,どのような情報がRR 関係により伝播しやすいのかを調べている.その結果として,幾つかの情報はRR 関係を通じて伝播しやすいことを示し,概してRR 関係上ではRR 関係がない場合と比較して,情報が短い期間で,かつ高確率で伝播しやすいことを示している.上記のようなRR 関係は種々の素性を基にして,決定木を用いる機械学習によりある程度判定可能であることを示している.

第4章「話題の伝播モデル分析」では,ブログ間の話題伝播が,語の力とブロガーの力によって説明できることを前提として,伝播の情報から議論の連なりやすい語を重要語として判別する手法を提案している.これは世間一般で良く知られた話題と比較し,人づてに伝播しやすい話題を判別する手法となっている.語の力とブロガーの力を分離して取り扱うために,特異値分解を用いる方法を導入している.実ブログデータを用いた実験により,瞬発性や継続性を持つ語を重要語として定義することで,規模に依らず話題性のある語を重要語として判別できることを示し,これは出現頻度の変化だけでは判別しづらい語にも対応出来ている.

第5章「行動の遷移モデルに基づいた嗜好の予測」では,ソーシャルブックマークのデータを主な対象にして,ウェブページに対するユーザ間の登録順序,並びにユーザが登録するウェブページ間の順序に基づいて,将来ユーザが登録するであろうウェブページを予測する手法を提案している.これは順序関係を連続時間マルコフ連鎖によってモデル化することで,あるユーザから別のユーザへの登録が伝播する可能性を推移確率によりスコア付けする手法となっている.ユーザ間遷移を考慮する手法では,先駆的イノベータが存在するソーシャルブックマークのデータにおいて高い予測精度を示し,更にウェブページ間の遷移とウェブページのクラスタリングを加えることで,よりユーザ毎の嗜好の遷移に従った予測ができることを示している.

第6章は「結論」であり,本論文の成果をまとめている.

以上のように,本論文は情報過多,氾濫の問題が現れてきているウェブ情報空間において,利用者に必要と推測される情報を推薦する機能が必要となってきているという背景の下で研究を行い,そのような新しい情報推薦に必要な情報を,ユーザ行動の蓄積から抽出する以下の研究結果を提示している.第一はブログにおける閲覧行動を分析し,定期的閲覧関係(RR 関係)をブログに存在する素性を基にして機械学習により判定する方法を示し,RR 関係を通じて情報が伝播しやすいことを明らかにしている.第二に,ブログ間の話題伝播において,話題語の力とブロガーの力を行列の特異値分解によって分離して取り扱えるようにし,語の出現頻度の変化だけでは判別しにくい瞬発性や継続性を有して伝播する語と重要話題語を判別する手法を示している.第三に,ソーシャルブックマークを主な対象にして,ウェブページに対するユーザ間の登録順序,並びにユーザが登録するウェブページ間の順序を連続時間マルコフ連鎖によってモデル化し,あるユーザから別のユーザへの登録が伝播する可能性を推移確率によりスコア付けする手法を示している.これらの解析や手法は実データを用いて効果を実験的に示しており,ウェブ情報推薦の新しい可能性を提示したものとして,この分野に少なくない貢献を果している.すなわち,本研究は情報理工学に関する研究的意義と共に,情報理工学における創造的実践に関し価値が認められる.

よって本論文は博士(情報理工学)の学位請求論文として合格と認められる.

UTokyo Repositoryリンク