学位論文要旨



No 128547
著者(漢字) 馬場,雪乃
著者(英字)
著者(カナ) ババ,ユキノ
標題(和) ソーシャルタギングからのことばが指し示す実世界対象の表現獲得
標題(洋)
報告番号 128547
報告番号 甲28547
学位授与日 2012.06.21
学位種別 課程博士
学位種類 博士(情報理工学)
学位記番号 博情第393号
研究科 情報理工学系研究科
専攻 創造情報学専攻
論文審査委員 主査: 東京大学 教授 稲葉,雅幸
 東京大学 教授 石塚,満
 東京大学 教授 平木,敬
 東京大学 教授 石川,正俊
 九州大学 教授 田中,久美子
 国立情報学研究所 教授 本位田,真一
内容要旨 要旨を表示する

本論文では,ことばが指し示す現実世界の対象物(実世界対象)を,実世界データを用いて表現するという問題に取り組んだ.ここでは,カメラやセンサーなどのデバイスを通じて現実世界から直接取得できるデータのことを実世界データと呼ぶ.特に本論文では,実世界データのうち写真(視覚データ)と場所(地理データ)をその代表例として取り上げ,「ことばが指し示す写真」,すなわちあることばの指示対象(例.「犬」)が写っている写真を獲得するという課題と,「ことばが指し示す場所」,すなわちあることばが指し示す場所を地理的な領域として獲得するという課題に取り組んだ.

この取り組みは,以下の三つの点で意義があると考える.第一に,これまで主に他のことばとの関係によって表現されていたことばの意味に対して,実世界データという別の側面からの解釈を与えることである.これにより,ことばの意味をより多角的に捉えることが可能となり,たとえばこれまでと異なる観点からことばの類似性を測ることで``mug''と``milk''の混同のような問題の解決に貢献すると考えられる.第二に,現実世界の情報と自然言語で表された情報とを意味的に関連づけられることである.たとえば,現実世界で見つけた名前のわからないものについての情報を検索する際などに,ことばの実世界データによる表現は利用することができるだろう.第三に,膨大な実世界データをことばを軸として構造化することである.人間とコンピュータのインタラクションの多くは自然言語によって行われており,実世界に関する情報をことばを介して効率的に検索・取得するためにこの構造化は意義があると考える.

本論文では,「ことばが指し示す写真」「ことばが指し示す場所」の獲得を行う機械的な手法を提案した.これにより,訓練データ作成などの人手を掛けずにことばが指し示す実世界対象を獲得できる.機械的に獲得するためには,ことばと写真,ことばと位置情報のデータ対が必要となる.このデータ対を取得するために,本研究ではソーシャルタギングと呼ばれる,World Wide Web (Web)上でコンテンツに対してタグ(コンテンツを説明するキーワード)を付与する仕組みに着目した.ソーシャルタギングによって生成されたデータを用いて機械的に,ことばの指示対象を獲得することを目指した.ソーシャルタギングデータを利用する上では,ことばの曖昧性とノイズタグの問題がある.ことばの曖昧性については,曖昧性が解消された「ラベル」を用いて,そのラベルが指し示す対象を獲得するという方法と,ことばの曖昧性を許容し,指示対象を曖昧さを含んだ確率表現として獲得する方法をそれぞれ採用し,その実現手法を提案した.ノイズタグの問題に対しては,一つのコンテンツに与えられた複数のタグづけを統合したり,同じタグが与えられた複数のコンテンツを利用したり,外部データを利用するといった解決方法を提案をした.

本研究の貢献は以下となる.写真については,(1)曖昧性が解消されたことばであるWordNet上の名詞概念に対して,機械的に写真を割り当てる手法を提案した.(2)この手法により,人手を用いずにWordNet概念が指し示す写真を収集し,また大量の写真をWordNet概念を軸として構造化できるようになった.(3)特に,収集した写真は画像認識のための訓練データとして用いても効果的であることを評価実験で示した.場所については,(1)「特定の場所と潜在的に関連があることば」に対して地理的な領域を機械的に割り当てる手法を提案した.(2)割り当てられた場所が人間の認識に対してある程度合致することを評価実験で確認した.獲得した「ことばが指し示す場所」は,テキストデータに対する地理情報の自動アノテーションや,ことば同士の地理的な類似度計算・上位下位関係の獲得などに役立つことが期待される.

審査要旨 要旨を表示する

本論文は「ソーシャルタギングからのことばが指し示す実世界対象の表現獲得」と題し,ことばが指し示す現実世界の対象物を,実世界のデータを用いて表現するという問題に取り組んだ.実世界データの代表例として写真・場所を取り上げ,ことばが指し示す写真・場所の獲得を目指した.人手を用いずに機械的に獲得を行うため,ソーシャルタギングと呼ばれる,World Wide Web (Web)上でコンテンツに対してタグ(キーワード)を付与する仕組みに着目して,ソーシャルタギングによって生成されたデータを用いて機械的に,ことばの指示対象を獲得する手法を提案した.

第1章では,ことばが指し示す現実世界の対象を実世界のデータを用いて表現するという問題について述べ,その問題に取り組む意義について述べた.その実世界データの例として写真と場所を取り上げる理由について述べ,また,人手で獲得する方法と機械的に獲得する方法を比較し,機械的に獲得する利点を述べた.さらに既存の写真・場所の獲得手法について概観し,具体的な研究課題とアプローチの概要を述べた.

第2章では,「ことばが指し示す写真」を人手あるいは機械的に獲得する既存研究と,「ことばが指し示す場所」を人手あるいは機械的に獲得する既存研究を紹介し,本研究の立ち位置を明確にした.また,写真に対するソーシャルタギングについての既存研究について述べ,ソーシャルタギング研究の観点からの本研究の貢献を明らかにした.

第3章では,「ことばが指し示す写真」の獲得として,あることばの指示対象が写っている写真をソーシャルタギングデータを用いて機械的に獲得する手法について論じた.曖昧性が解消されたことばとしてWordNet上の名詞概念を利用し,対象のWordNet概念が与えられた際に,「WordNet概念と関連が強いタグが与えられている写真は,WordNet概念を表している写真である」という前提のもと,タグとWordNet概念の関連度を計算する手法と,その結果を統合して写真とWordNet概念の関連度を計算する手法を提案した.さらに,画像特徴量を用いて,タグ情報から計算された,写真とWordNet概念の関連度結果を更新する手法を提案した.Flickrから収集した写真に対して提案手法を適用し,獲得した写真の精度を評価した.結果,16個の哺乳類概念においては,9個の概念で90%以上の精度を達成することができた.さらに,画像認識アプリケーションに利用した際のパフォーマンスを評価した.特に人手で構築されたデータセットであるImageNetと,機械的に構築されたデータセットであるTinyImagesと比較することで,用いる画像認識アルゴリズムによってはImageNetと遜色ないパフォーマンスを示すこと,またTinyImagesよりは高パフォーマンスを示すことを確認した.

第4章では,「ことばが指し示す場所」の獲得として, あることばが指し示す場所を地理的な領域として,ソーシャルタギングデータを用いて機械的に獲得する手法について論じた.Flickrにおいて,写真を介して,その写真に与えられたタグと写真の撮影場所を関連づけられることに着目し,タグと位置情報の共起関係を利用してタグ(ことば)と関連のある場所の抽出に取り組んだ.関連のある場所を確率分布で表現することを提案し,抽出のための確率モデルを提案した.Flickrから収集したデータに対して提案手法を適用し,提案した確率モデルがFlickr上のデータに当てはまっていることを示した.また抽出した結果を人手で評価することで,50個のタグのうち半数では人間の認識に合致する結果が得られたことを確認した.

第5章では,3・4章の提案手法をまとめ,今後の研究の方向性を示した.

以上のように本論文では,ことばが指し示す現実世界の対象物を,実世界のデータを用いて表現するという問題に取り組み, この問題に対して,ソーシャルタギングによって生成されたデータを用いて機械的に獲得するという手法を提案し,その有効性を画像認識アプリケーションへの適用や,人間によるスコアづけなどで確認した.本研究によって得られた成果は,実世界にあるさまざまなデータのうち写真と場所という一部分のみを対象としたものではあるが,これまで主に「他のことばとの関係性」によって表現されてきたことばの指示対象,すなわちことばの意味を実世界データによって表現するという大きな目標に対して貢献するものである.また,ソーシャルタギングという,人々が各人のモチベーション(たとえば「自分の写真を自身のために整理したい」など)に沿ってタグづけを行なっていて,「ことばの指示対象を獲得できるようにしよう」というモチベーションによるタグづけではないデータ源から「ことばの指示対象」の獲得がある程度の精度で実現できることを確認したという点でも,本論文には意義がある. 以上のように情報理工学における創造的実践の観点でも価値が認められる.

よって本論文は博士(情報理工学)の学位請求論文として合格と認められる.

UTokyo Repositoryリンク