学位論文要旨



No 127484
著者(漢字) 深澤,佑介
著者(英字)
著者(カナ) フカザワ,ユウスケ
標題(和) コンテンツ推薦のためのタスクに基づくコンテンツ選択及び表現方法
標題(洋) Automatic Task-based Content Selection and Representation for Content Recommendation
報告番号 127484
報告番号 甲27484
学位授与日 2011.09.27
学位種別 課程博士
学位種類 博士(工学)
学位記番号 博工第7570号
研究科 工学系研究科
専攻 精密機械工学専攻
論文審査委員 主査: 東京大学 教授 太田,順
 東京大学 教授 鈴木,宏正
 東京大学 教授 淺間,一
 東京大学 准教授 松尾,豊
 国立情報学研究所 教授 武田,英明
内容要旨 要旨を表示する

In this thesis, we establish the method of content recommendation from a variety of contents.

Chapter 1 describes the background, related works, and purpose of this study. In the background, we set three requirements as follows: personalized content selection, comprehensible content representation and comprehensible content navigation. Then, we define the term used throughout the thesis. We investigated related works on content recommendation, content representation using keywords, task-based descriptions, domain-models, and task-models for content navigation. Then, we describe the structure of this thesis.

Chapter 2 introduces task-based content selection to achieve personalized content selection in content recommendation from various content. In order to achieve personalized content selection, we propose task-based profile representation in content-based recommendation, and evaluate the recommendation of a variety of contents (i.e. mobile web content and TV programs, restaurants, sightseeing spots, and hotels). Concretely, we tackle the following three research questions: 1) how to acquire a wide variety of tasks, 2) how to represent item profiles, and 3) how to represent user profiles. To answer question 1), we acquire tasks from the web automatically. For 2), we extract feature words for each task and match content descriptions with those feature words. For 3), we use SVM(Support Vector Machine) to automatically acquire user profiles from history data. An experiment on the metric of recommendation accuracy shows that the combination of task-based profile representation and term-based representation yields a 17.7% improvement in MAE compared to term-based profile representation or domain (content-category) based profile representation.

Chapter 3 introduces task-based content representation to achieve comprehensible content representation. In order to satisfy comprehensible content representation, we develop an application called TaskGuideRoad(TGR); it recommends YouTube content from task-based representation of sightseeing spots shown on a map. We extract task-based descriptions given the input of noun features of contents on the web. A user evaluation shows that TGR improved the frequency of watching video by about 15%. From the results of an interview, 90% of the subjects gave TGR high marks in terms of finding new enjoyable videos. Furthermore, we show that TGR allows users to find sightseeing spots from interesting and useful tasks at unknown places.

Chapter 4 introduces the automatic creation of task-model in order to achieve comprehensible content navigation. We develop two methods; 1) PMI(Pointwise Mutual Information) based Clustering: PMI uses the number of search results to measure the closeness of two concepts, and so does not need features of the tasks. 2)PMI-based features for BSK, BUC and FCA: the method creates features based on PMI between tasks to enhance the existing clustering methods of BSK, BUC and FCA. As PMI calculation needs only the number of search results, this method does not need any features to be specified beforehand. In both methods, we need to estimate the parent-children relationships between parent task candidates and children task candidates with the lowest possible error rate. To do that we propose a method that extends the PMI calculation; it divides the representation of tasks into a noun part and a verb part, and calculates the mutual information between them. A preliminary experiment shows that the proposed method can capture almost 80% of the pairs of correct parent task and child task.

Chapter 5 evaluates automatic creation of task-model, PMI-based task clustering and PMI-based task feature creation for existing clustering algorithms. We adopt taxonomic overlap between the created model and a ground truth model as the evaluation metric of the former. A comparison of feature types shows that the model created by BUC using PMI-based feature achieves, on average, 14.0 % taxonomic overlap, which is almost 94.0% of the taxonomic overlap (average 14.9%) of the model created by BUC using token-based features. This shows that if the tasks are not supported by a sufficient number of descriptions, PMI-based creation works well. By comparing the proposed PMI-based Clustering to three existing algorithms, we find that PMI-based clustering achieves 25.87% overlap, which is a 32.0 % improvement over existing methods; i.e. BSK(=15.23%), BUC(=14.94%) and FCA(=17.60%). The worst case calculation complexity also shows that PMI-based clustering has lower complexity (=O(n)) than BSK(=O(m times n^2)), BUC(=O(m times n^2)) and FCA(=O(c^k )|k = min (m,n)), where n represents the number of tasks, and m represents number of feature elements. This means that, PMI-based Clustering is expected to create precise task-models in shorter time than the other methods.

Chapter 6 describes a user test conducted to evaluate automatic creation of task-model; it investigates the navigability of the task-model from the view point of ``degree of task clustering" and ``ease of reaching the desired cluster''. As for the metric ``degree of task clustering", twelve domains in the model created by PMI-based Clustering are judged as ``well clustered'' or ``pretty well clustered'', which is the best performance among all methods i.e. FCA(=9 domains) and BUC(=10 domains). As for the metric ``ease of reaching the desired cluster'', nine domains in the model created by PMI-based Clustering are judged as ``Easy to reach most of the clusters'', which superior to the performance of the other methods e.g. BSK(=2 domains), FCA(=4 domains) and BUC(=1 domain). This result shows that the task-models created by PMI-based Clustering also have the best quality from the viewpoint of ``navigability''.

Chapter 7 describes the conclusion and some possible extensions of this thesis.

審査要旨 要旨を表示する

深澤 佑介提出の本論文は「Automatic Task-based Content Selection and Representation for Content Recommendation(コンテンツ推薦のためのタスクに基づくコンテンツ選択及び表現方法)」と題し,全7章より構成される.

この論文は,多種多様なコンテンツの利用促進のためコンテンツ選択,表現およびコンテンツナビゲーションのためのモデル化方式を提案,評価している.

第1章では,序論について述べている.研究の背景において,従来のレコメンドと様々なコンテンツからのレコメンドの違いについて議論をしている.次に本論文で用いている用語の定義を行っている.次に,情報推薦,モデルを用いたコンテンツナビゲーションおよびモデルの自動構築に関する従来研究について述べている.次に研究の目的について述べている.その後,提案アルゴリズムの概要について議論している.最後に論文の構成について述べている.

第2章では,多種多様なコンテンツの中からユーザに合ったコンテンツを推薦するため,タスクを用いたコンテンツ推薦手法について提案している.タスクとはユーザのやりたいことや解決したい問題を表している.多様なコンテンツの推薦では特徴空間が疎になる可能性があるが,タスクの特徴を導入することにより解決を図る.次に,Webからのタスクの収集方法を提案している.事前評価実験により,ユーザの様々な実世界における体験が書かれたBlogサイトから収集することがより網羅的かつ正確にタスクを収集できることを示している.次に,被験者による評価を行い,従来の単語のみを用いたコンテンツ推薦手法に比べ,17.7%推薦精度が向上したことを確認している.

第3章では,様々な未知のコンテンツを分かりやすく表現する方法として,タスクを用いたコンテンツ表現を提案している.具体的には,地図ベースの動画視聴アプリケーションを提案している.このアプリケーションでは,表示されている地図のエリア内でユーザができること(タスク)から動画を選択することができる.被験者評価から,比較手法(GoogleMaps の動画視聴インタフェース)に比べ,平均3 個程度,視聴動画個数が増加したことを確認している.

第4章では,様々なコンテンツの中からユーザが自ら目標であるタスクを容易に発見するためのタスクモデルを自動で構築する手法について述べている.従来手法の問題点として,タスクの概念は特徴が少なく,クラスタリングの精度が悪化するという問題を挙げている.その解決法として,2つの概念間の強さをWeb文書上での共起度によって求めるPMI(Point-wise Mutual Information)を拡張したPMIに基づくクラスタリング手法を提案している.タスクは名詞と動詞から構成されていることから,二つのタスク間のPMIは4つの概念間の組み合わせで表現される.事前実験により最適な組み合わせ方法について議論している.

第5章では,4章で提案したタスクモデルの自動構築手法の客観評価を行っている.評価手法としてCimianoらのTaxonomic Overlapという正解モデルとの重複度による評価指標を採用している.ヘルスケアに関する14のドメインについてモデル化を行い,平均25.9%の重複度でモデルを構築できたことを確認している.従来手法に比べ32.0%程度の改善を示している.

第6章では,4章で提案したタスクモデルの自動構築手法のユーザ評価を行っている.評価指標として,タスクへの到達が容易かを判断するため,1)意味的に近いタスクがクラスタ化されているか,2)各クラスタがTopノードから容易にアクセスできるかを定義している.ユーザ評価の結果,1)の観点では,14ドメイン中12ドメイン,また2)の観点では,14ドメイン中9ドメインにおいて高評価を得たと報告している.

第7章にて論文全体の結論と今後の課題について述べている.多種多様なコンテンツからのレコメンドにおいて,1)コンテンツの特徴量にタスクの特徴を追加することにより推薦精度が向上することを確認した.2)コンテンツの表現として自動で生成したタスクを利用することにより,コンテンツの視聴増の効果を確認した.3)コンテンツを絞り込むためのタスクモデルを自動で構築することが可能であることを示した.今後の課題として,1)に対し,タスクの特徴量における,タスクの類義語,上位-下位関係のタスクの混在を解消し,推薦精度を向上する.2)に対し,Webから抽出したタスクの中から興味深いタスクを抽出する.一般的なタスクは既に誰でも実行したことがあり興味を持ってもらえない可能性があるためである.3)に対し,リアルタイムでタスクモデルを構築する手法を検討する.

以上を要するに,本論文では,様々なコンテンツからのレコメンドにおいてタスクという観点でコンテンツの選択,表現およびモデル化を行った非常に先駆的な研究であり,それぞれユーザ評価を通じて有効性が確認されている.このような意味から,ここで得られた結果は重要なものであると言える.

よって本論文は博士(工学)の学位請求論文として合格と認められる.

UTokyo Repositoryリンク