学位論文要旨



No 217668
著者(漢字) 金山,博
著者(英字)
著者(カナ) カナヤマ,ヒロシ
標題(和) 意見から知識への転換 : 評価と要望の抽出
標題(洋) From Opinion to Knowledge : Extraction of Sentiments and Demands
報告番号 217668
報告番号 乙17668
学位授与日 2012.03.12
学位種別 論文博士
学位種類 博士(情報理工学)
学位記番号 第17668号
研究科
専攻
論文審査委員 主査: 東京大学 教授 相澤,彰子
 東京大学 教授 萩谷,昌己
 東京大学 教授 中川,裕志
 東京工業大学 教授 奥村,学
 東北大学 教授 乾,健太郎
内容要旨 要旨を表示する

様々な種類の電子化されたテキスト文書の中では、製品・サービス・企業などに対する評価や要望といった人々の意見が述べられている。これらは企業・個人消費者の双方にとって貴重な情報源となるため、大量の文書から知見を得るために、意見の内容を構造化された情報へと自動的に変換する手法が求められている。本論文では、人々の意見を整理するために好適な意味構造を定義するとともに、意見の内容を高精度で同定するための方法論、さらに特定の分野に適応させるために語彙や構文の構造に関する知識を自動獲得する機械学習の手法について論じる。これらの技法は、実世界の人々の意見を産業界で有効に使える知識へと迅速に効率よく変換するための革新的技術と捉えることができる。

本論文の中核をなす考え方は「節単位の評価表現抽出」と呼ぶ、文書単位・文字単位よりも細かい分析を行い、単語や句の単位の抽出よりも詳細な構造を出力する処理である。具体的には、評判等が書かれた文書から知識を得るために設計された意味構造である「評価フレーム」を出力する。(i)評価表現を正確に検出すること、(ii)同様ないし類似の意味を持つ評価を同一視すること、という評価表現の検出における二つの重要な要求を満たすために、本論文では「木構造変換モデル」を提案する。これはトランスファー方式の機械翻訳で用いられた構文や意味に関する変換操作を模倣するものである.これにより、部分構文木の結合、動詞の格フレーム解析、語義の曖昧性解消といった機械翻訳を日的として培われた技術が再利用できることとなり、意見の分析に有用な情報を持つ意味構造を高い精度で出力するシステムを、見通しよく、かつ低い開発コストで構築することが可能となる。

本論文の第二の主題は、節単位の評価表現抽出のための語彙を教師無し学習によって獲得する手法である。これは、特定の分野のコーパスの中から、その分野に特化した評価表現の語彙知識を自動的に得るものである。ここで用いる辞書の項目は「極性単位」と呼ばれ、節の極性を決定するための人間が理解できる最小単位の構文構造である。語彙獲得の手がかりとして、「文脈一貫性」、すなわち同じ評価極性が連続して現れやすいという性質を用いて、分野非依存の評価表現をもとに、新たな極性単位の候補を取り出す。そして、コーパス全体における評価表現の密度と極性の一致度の指標を用いて、極性単位の候補から適切なものを、統計的検定により選択する。この結果、専門家にしかわからないような分野に特化した語彙を追加することができるうえ、消費者による評価の具体的内容となるような、製品やサービスに対する新たな良い点.悪い点に関する知識を得ることができるようになる。また本手法は、人手による閾値の設定などが不要であるため、教師無し学習のプロセス全体を全自動で実行できるという利点を持つ。

本論文ではさらに、評判分析の概念を拡張して、人々が製品やサービスに対して求めているものを把握する「要望分析」という新たな課題に取り組む。要望を表す表現には様々なタイプが存在するが、ここでは書き手の要望を表す体言句である「要望対象」の同定に着目する。より多くの要望対象を検出するためには、分野や文書の性質によって異なる書き方の違いを吸収する必要がある。そこで、コーパス全体で述べられている要望の内容の中には共通するものがあるという仮定を用いて、要望を表す語句を得るための新たな構文パターンをコーパスから教師無し学習により獲得する手法を提案する。

論文全体を通じ、現実のビジネスを意識して、実世界のデータを有効に活用するための課題を設定するよう努めている。そして、提案するシステムや構築する言語資源が、複数のアプリケーションや他のコンポーネントによって活用できるような、意味処理の基盤となるように設計する。

審査要旨 要旨を表示する

本論文は、「From Opinion to Knowledge - Extraction of Sentiments and Demands(意見から知識への転換 - 評価と要望の抽出 -)」と題し、6章より構成される。製品・サービス・企業などに対して寄せられるユーザの意見は貴重な情報源であり、最新の評価や要望をすばやく大量に分析し意志決定に結び付けることで、戦略的な製品開発や販売が展開できる。このような目的に基づき本論文では、自然言語文で表現されたユーザの意見を自動的に解析し、活用するための言語処理手法について論じている。

第1章は「Introduction」と題し、研究の目的を明らかにしている。まず、評価や要望の分析における課題として、中核となる意味構造の定義、自然言語文の意味構造を同定するための言語解析手法の開発、分野固有の知識や語彙への対応の3点をあげている。また、これらの課題への取組みにおいて本研究では、コンポーネント化による汎用的な言語解析基盤の構築、統計的手法に加えて人手による知識の編集を可能にする可読性の高い知識表現の提案、実社会への応用に直ちに結びつく評価手法の確立、の3点を目標としたことを述べている。

第2章は「Background」と題し、評判分析の従来手法を総説するとともに、論文中で要素技術として用いる構文解析、教師なし学習、構造化されていない情報を管理するためのアーキテクチャであるUIMA(Unstructured Information Management Architecture)上でのテキストマイニングについて説明している。

第3章は「Clause-level Evaluation Detection using a Tree Transfer Model」と題し、節単位での言語解析に基づく評価抽出手法について論じている。まず、評価の意味構造を表現するための評価フレームと呼ぶ知識表現を設計し、次に自然言語文から評価フレームへの変換に機械翻訳手法を適用することを提案している。これにより、動詞の格フレーム解析や語義のあいまい性解消など機械翻訳手法の従来の研究成果を低コストで導入することが可能になる。実験の結果、表層的な単語マッチングを用いる場合と比較して、機械翻訳手法を用いる場合には大幅な抽出精度の改善が得られることを示している。

第4章は「Unsupervised Lexicon Induction for Domain-oriented Sentiment Analysis」と題し、評価抽出のための辞書を教師なし学習により獲得する手法を論じている。評判分析では、評価対象に対するユーザの態度が肯定的であるか否定的であるかの極性の判断が重要であるが、分析に必要となる語彙やそれに対する極性は評価対象の領域に強く依存する。そこで、本研究による提案手法では、特定の領域のコーパスの中から評価辞書に登録される語彙候補を自動抽出し、統計的検定による適切な候補を選択する。実験を通して、複数の文章にまたがる大域的な極性の一致度を用いることで辞書の被覆率を高めるとともに、閾値の設定に統計検定を用いることで人手によるパラメタ調整を介さず高い抽出精度が達成できることを示している。

第5章は「Demand Detection and Pattern Induction」と題し、ユーザが製品やサービスに求めている要望を抽出する問題に取り組んでいる。従来の評判分析が極性の判定に焦点をあてていたのに対して、多くのユーザから寄せられる意見文の中から具体的な要望対象を抽出するという課題に新たに取り組むものである。コーパス全体を分析することにより、要望を表す体言句を抽出するための構文パターンを教師なし学習により獲得する手法を提案し、高い抽出精度が得られることを示している。

第6章は「Conclusion and Future Work」と題し、第3章から第5章の研究を総括して研究の貢献を明確にするとともに、意見分析に関する今後の研究の方向性について論じている。

以上を要するに、本研究では、自然言語文で表現されたユーザの評価や要望の抽出法を論じ、新規性が高い手法や枠組み新たに提案して、有効性を示している。ユーザの意見を知識として活用するための実用性にも優れた基盤技術を提示した点で、当該分野への貢献も大きい。

よって本論文は博士(情報理工学)の学位請求論文として合格と認められる。

UTokyo Repositoryリンク