学位論文要旨



No 123944
著者(漢字)
著者(英字)
著者(カナ) シェック,モスタファ アル マスム
標題(和) テキストからの感情センシングのための解析的アプローチ
標題(洋) An Analytical Approach for Affect Sensing from Text
報告番号 123944
報告番号 甲23944
学位授与日 2008.03.24
学位種別 課程博士
学位種類 博士(情報理工学)
学位記番号 博情第189号
研究科 情報理工学系研究科
専攻 電子情報学専攻
論文審査委員 主査: 東京大学 教授 相澤,清晴
 東京大学 教授 石塚,満
 東京大学 教授 原島,博
 東京大学 教授 広瀬,啓吉
 東京大学 教授 喜連川,優
 東京大学 准教授 苗村,健
内容要旨 要旨を表示する

Studying the relationship between natural language and affective information as well as assessing the underpinned affective meaning of natural language are becoming crucial for improving human computer interaction. The area of such interactive applications is numerous and varied, ranging from categorizing newsgroup flame and augmenting search engine responses to analysis of public opinion trends towards a particular fact or entity and customer feedback. Text is not only an important medium to describe facts and events, but also to effectively communicate information about the writer's positive or negative sentiment underlying an opinion, or to express an affective or emotional state, such as happy, fearful, surprised, and so on. We consider sentiment assessment and emotion sensing from text as two different problems. Classifying the tone of the communication as generally positive or negative is considered as the task of sentiment assessment and recognition of particular emotion(s) being expressed is the task of emotion sensing. Therefore, the thesis first presents an analytical approach to sentiment assessment, i.e., the recognition of negative or positive valence of a sentence and then explains how a well-founded emotion model has been implemented for recognition of emotions. For the purpose of sentiment assessment from text, we perform semantic dependency analysis on the semantic verb frame(s) of each sentence, and then apply a set of rules to each dependency relation to calculate the contextual valence of the words used in the sentence. By employing a domain-independent, rule-based approach our system is able to automatically identify sentence-level sentiment. A linguistic tool called 'SenseNet' has been developed to recognize sentiments in text, and to visualize the detected sentiments. We conducted several experiments with a variety of datasets containing data from different domains. The obtained results indicate significant performance gains over existing state-of-the-art approaches. Emotions expressed in natural language are very often expressed in subtle and complex ways, presenting challenges which may not be easily addressed by simple text categorization approaches such as 'n-gram' or 'keyword identification' approaches. Numerous approaches have already been employed to "sense" affective information from text; but none of those ever employed the OCC emotion model - an influential theory of the cognitive and appraisal structure of emotion. The OCC model derives twenty-two emotion types and two cognitive states as consequences of several cognitive variables. This thesis therefore describes how to relate cognitive variables of the emotion model to linguistic components in text, in order to achieve emotion recognition for a much larger set of emotions than handled in comparable approaches. In particular, we provide tailored rules for textural emotion recognition, which are inspired by the rules of the OCC emotion model. Hereby, we clarify how text components can be mapped to specific values of the cognitive variables of the emotion model. The resulting linguistics-based rule set for the OCC emotion types and cognitive states allow us to determine a broad class of emotions conveyed by text.

This thesis is composed of seven chapters and two appendices, which provide background to this research, describe the core methodologies, demonstrate results of this work, describe the developed applications, and enlist pseudo codes of the approach discussed. The contents of each chapter are outlined below.

・Chapter one: This part is a general introduction to the topic. Since the research topic is multi-disciplinary, first the contribution and background knowledge obtained from different knowledge domains are discussed. Then the core features of this research are pointed out.

・Chapter two: In this chapter, the current state of the art approaches for sentiment analysis from texts have been discussed by pointing to the limitations of those. Finally, our approach is explained from the viewpoint of considering the previously ignored topics for the task of sentiment analysis of text.

・Chapter three: This chapter explains the core approach of this research. How different lexical resources have been developed and then employing several rules how an input text can be considered as an analytical model have been explained with examples. Our developed application, SenseNet, assesses an input text numerically in order to know whether the input text carries a negative or positive sense. The implementation detail of SenseNet is discussed in this chapter.

・Chapter four: This chapter contains experimental results for different standard datasets for the task of sentiment analysis. Different types of system evaluation are done and the chapter concluded with a discussion on obtained results and failure analysis.

・Chapter five: Though all emotions can be seen as positive or negative, this chapter extends the idea of recognizing more fine-grained named emotions (e.g., happy, sad, anger etc.). Towards this point how a well-founded emotion model (i.e., OCC emotion model taken from Cognitive Psychology) can be implemented in linguistic realm has been discussed. This is completely a new contribution that came out of this research.

・Chapter six: Grounding the developed theories and methodologies several applications are developed. In this chapter the developed applications are discussed in terms of their architectures, functional steps and graphical user interfaces.

・Chapter seven: This chapter contains summary and conclusions of the studies in sentiment and affect sensing from text.

・Appendix A: It contains the pseudo code of the algorithm for sentiment sensing from text.

・Appendix B: It contains the detail experimental result of one of the datasets.

審査要旨 要旨を表示する

本論文は「An Analytical Approach for Affect Sensing from Text(テキストからの感情センシングのための解析的アプローチ)」と題し,英文で記されており,7章から成る.

第1章「序論(Introduction)」では,テキストからの感情抽出を従来とは異なるアプローチで行っているという,本論文の特徴について述べている.ここでのアプローチは,まず第1フェーズとしてテキストの著者(場合によっては話者)の情緒(sentiment)がポジティブ/ネガティブあるいはニュートラルであるかの度合いを算出する.次いで第2フェーズで,認知心理学に基づく感情理論(具体的にはOCCモデル)に基づき,感情の検出を行うとしている.なお,対象とするテキストは英文テキストである.

第2章「テキストの情緒分析(Sentiment Analysis of Text)」では,まずテキストからポジティブ/ネガティブの情緒を識別する従来手法についてまとめている.従来手法として,感情語のキーワードスポッティング,語彙類似性,統計的学習法,常識ベース,領域依存の識別法の利用などを挙げている.しかし,これらの手法は不十分なところがあるとし,感情の認知的評価構造,自然言語の意味解析,実世界知識の利用により,より包括的な感情種別を対象として,より頑健性を持つ新手法を考案,開発したとしている.

第3章「自然言語学リソースとSenseNet (Linguistic Resources and SenseNet)」では,本研究のテキストからの感情認識の第1フェーズの中心となる,ポジティブ/ネガティブの程度(Valence値と呼ぶ)を算出するSenseNetについて論じている.SenseNetの基礎構造は,単文単位(1述語から成る)の述語フレーム(主語,述語,目的語)の3つ組データに対してValence値を計算することである.この計算は,動詞,形容詞,副詞,名詞の各単語のValence値を,WordNet,ConceptNet(総体として常識を表す集合知による70万文を意味ネットワーク構造としたもの),及びWeb上の判断検索サイトを利用して求め,それらを否定的表現の扱いなども含めて定めた複数の規則で統合することにより,行っている.単語へのValence値の割り当てをConceptNetの利用により,ポジティブ/ネガティブの情緒に直接的に結びついた単語でなくても,通常良く用いられる文脈から判断して可能にしている.また人名などの固有名詞に対しても,Web上の評判検索を利用することにより,Valence値の割り当てを可能としている.1文は複数の述語フレーム3つ組データで表されることになるが,各述語フレームの依存関係に基づいて各Valence値を統合する規則を定め,文のValence値を算出している.更に,複数文から成るパラグラフに対して,文脈としてのValence値を計算する方法を示している.テキスト文から述語フレームや依存関係構造の抽出には,意味解析パーサを用いている.

第4章「SenseNetの評価(SenseNet Evaluation)」では,3章のSenseNetの性能について人間の判断を基準にした評価と,既存手法との比較による評価を行っている.評価用データセットには,映画や製品の評判に関する4種を用いている.文章レベル,パラグラフレベルの評価で,提案手法はポジティブ/ネガティブのValence値の判定に関し,多様な文に対する頑健性及び判定精度等について,既存手法よりも優れていることを実証している.

第5章「テキストの感情分析(Emotion Analysis of Text)」では,SenseNetによる述語フレームの3つ組構造データ,及びポジティブ/ネガティブのValence値算出を利用し,テキストから従来よりも詳細で包括的な認知的評価理論に基づくOCCモデル(22種の感情を定義している)の感情を検出する手法について論じている.このために,テキスト著者の認知的状態を表す16種の認知変数を導入し,テキストの意味解析結果からルールによりこれらの認知変数の値を求める方法を提示している.そして,SenseNetから得られるValence値とこれら認知変数の値から,OCCモデルの22種の感情を検出するルールを構成している.結果は1種の感情を確定的に出力するのでなく,可能性のある複数の感情を強度付きで出力する.既存手法より,より詳細なレベルで,かつ精度高く感情検出が可能であること,人間の判断とおよそ80%の精度で一致する感情検出性能が得られていることを実験的に実証している.

第6章「開発した応用(Developed Applications)」では,開発した4種のシステムについて記している.第一は第3章のSenseNetをWebサービスのシステムとして実現したものであり,テキストを入力するとSenseNetによる述語フレーム3つ組データの分析結果のグラフィカル表示や,テキストのValence値の算出結果を表示する.第二の応用はASNA(Affect Sensitive News Agent)と呼ぶシステムの開発である.このASNAシステムは,RSS(Rich Site Summary)により最新のWebニュースを収集し,ニュース文を8種の感情(happy, sad, hopeful, fearful, admirable, shameful, loveable, hatred),及びニュートラルを加えて9種に分類して,関連画像も付加して提示する.第三の応用はESNA(Emotion Sensitive News Agent)と呼ぶASNAの拡張としてのシステムの開発である.このESNAシステムでは,固有名詞に対するユーザの嗜好を考慮したテキストの感情分類が行われる.(例えば,イタリアサッカーチームのワールドカップ優勝のニュースは,イタリアに対して嫌いの嗜好が与えられていればsadとして分類されることになる.)第四の応用はオンライン・テキスト感情検出システムであり,ユーザ入力テキストから検出される感情を提示する.

第7章「要約と結言(Summary and Conclusion)」では,本論文の研究を要約している.

以上を要するに,本論文はテキストからの感情抽出に関し,認知心理学に基づく感情理論を背景として,既存手法より深くかつ詳細に分析する解析的アプローチとして,第1フェーズとしてポジティブ/ネガティブの情緒(sentiment)を算出し,第2フェーズで包括的なOCCモデルに基づく22種の感情を判別する手法を提示している.第1フェーズに対しては,Webリソースとして利用可能な実世界知識を利用することにより,直接的な感情語ではない単語に対しても情緒を求め,述語フレームの3つ組データ構造(主語,述語,目的語)を基礎単位にして,規則により統合することでより大きな単位のパラグラフ,文章の情緒を頑健に算出するSenseNetを創案,開発している.第2フェーズに対しては,OCCモデルの22感情の判別に必要なテキスト著者の認知的状態を表す認知変数を導入し,テキストの意味解析結果からこれら変数値を求める方法を示し,SenseNet分析結果とあわせて22感情を検出するルールを構成し,感情抽出を実現している.提案手法の性能は実験により既存手法に対して分析の詳細度,精度について優れたものであることを実証すると共に,応用としてWebニュース文を感情により分類するなどのシステムを開発し,実用的にも有用であることを示している.これらの成果はテキストからの感情抽出の研究の新段階を切り拓いたものとして意義が認められ,電子情報学上貢献するところが大きい.

よって本論文は博士(情報理工学)の学位論文として合格と認められる.

UTokyo Repositoryリンク http://hdl.handle.net/2261/28823