学位論文要旨



No 117791
著者(漢字) 小松,孝徳
著者(英字)
著者(カナ) コマツ,タカノリ
標題(和) 韻律情報を利用した意味獲得モデルの構築 : 適応的インターフェイスの実現へ向けて
標題(洋)
報告番号 117791
報告番号 甲17791
学位授与日 2003.03.28
学位種別 課程博士
学位種類 博士(学術)
学位記番号 博総合第427号
研究科 総合文化研究科
専攻 広域科学専攻
論文審査委員 主査: 東京大学 助教授 植田,一博
 東京大学 客員助教授 谷,淳
 国立情報学研究所 教授 山田,誠二
 東京大学 教授 西田,豊明
 東京大学 助教授 開,一夫
 東京大学 教授 玉井,哲雄
内容要旨 要旨を表示する

 本論文の目的は、ユーザとの自然で双方向的なインタラクションを通じ、ユーザの発話中の韻律情報と機能との結び付きを学習する音声インターフェイスの基礎技術となるような「意味獲得モデル」を提案することである。具体的には、発話の韻律的特徴の差異に基づいて教示種類を弁別し、その弁別された情報と機能との結び付きを学習することで発話の意味を理解する学習モデルの構築を目的とした。この際、本論文では、コミュニケーション成立時における人間の認知的特性を踏まえたうえで、それを学習モデル作成に生かすというアプローチを取る。

 第1章では、人間とのコミュニケーションを目指したロボットなどのインターフェイス開発における技術的な課題について紹介した。その課題を解決すべく、人間のコミュニケーション成立時における認知的特性に注目した上で、人間とコミュニケーションできるような音声インターフェイスの構築を目指す、という本研究の目的が述べられている。その際に、本論文では、話者の意図が直接的に反映されやすい発話音声中の韻律情報の役割に注目した。

 第2章では、発話中の韻律情報に関する研究、エージェントによる意味獲得研究など、本研究に関連した先行研究について紹介した。そして、それら先行研究との比較から、本研究には、1)人間とエージェントとの相互適応的なインタラクションがコミュニケーションに及ぼす影響に注目した点、2)発話中の普遍的な役割を持つ情報が意味学習プロセスに与える影響に注目した点、といった新規性があることを説明した。

 第3章では、本研究の採用したアプローチについて述べた。具体的には、まず、発話中の音韻情報を使用できないような状況に置かれた人間同士が、どのようにして音韻情報を用いずに相手の発話を理解していくのかを観察するコミュニケーション実験を行うことで、コミュニケーション成立時における人間の認知的特性を明らかにする。そして、この実験の結果を基に、教示の種類を発話の韻律的特徴から弁別し、その弁別された情報と機能との結び付きを学習することで、発話の意味を理解する学習モデルを構築する、という方針を示した。

 第4章では、コミュニケーション成立時における人間の認知的特性を考察するために、相手が何かを話していることはわかるがその意味はわからないような状況を設定し、そこで話し手の発話意味を聞き手がどのようにして理解していくのか解析するためのコミュニケーション実験について説明した。その結果、与えられる未知の音声の意味を獲得し、コミュニケーションを成立させることのできた被験者ペアの意味獲得プロセスにおいて、以下の三点が観察された。

 1.韻律情報による注意喚起

 聞き手は未知の音韻情報であっても、その音の「聞こえ方」によって教示の種類を理解していた。また、教示音声中の韻律情報の一つである高いピッチ成分が、聞き手に対して注意を喚起していたことが観察された。

 2.複合報酬による強化学習的な意味獲得プロセス

 聞き手は、与えられる音声教示と自分の行動とを対応させて教示の意味を獲得していた。ここから、本実験における意味学習プロセスは、行動が成功したことにより得られる正の報酬と、話し手の音声の高いピッチから与えられる負の報酬という、二種類の報酬を利用した強化学習的なプロセスであると考えられた。

 3.相互適応的な行動の変化

 話し手・聞き手双方の行動において、お互いが相手のことを学習しながら相手に徐々に適応していくという、相互適応的なプロセスが観察された。

 第5章では、第4章のコミュニケーション実験で観察された人間の発話理解プロセスを基に、発話中の韻律情報と聞き手の行動(インターフェイスで言えばその機能)とを結び付けることで、発話の意味理解を可能とする意味獲得モデルを提案した。具体的には、次のような事柄を満たす学習モデルを提案した。

 1.自分の行動に対して正の報酬を受けた時、自分の行動の直前に発せられた教示音声の意味は、自分のとった行動を指示していると認識し、負の報酬を受けたとき、教示音声の意味は、自分の行動を指示していないと認識する。

 2.教示音声はある程度の誤差を持って発せられると仮定する。報酬を受けたときの教示音声・行動のセットは蓄積され(音声─行動データ)、そのデータはいくつかのクラスタに分類される。一つのクラスタが一つの教示の意味に相当する。

 本モデルでは正規混合分布から音声─行動データが生成されたと仮定したため、それぞれの正規分布のパラメータ(平均値・分散)を求めることが、教示の意味学習に相当する。本モデルでは、EMアルゴリズムを用いて、混合分布中の各分布のパラメータを推定した。しかし、従来のEMアルゴリズムでは負の報酬を学習に使用することはできない。そこで本論文では、従来型のEMアルゴリズムのE stepを拡張することで、負の報酬を受けた音声─行動データを学習に利用できる拡張型EMアルゴリズムを新たに提案した。

 第6.1節では、第5章で提案した意味獲得モデルが、教示者とインタラクションしながら発話の意味を学習していく操作者のモデルとして適しているのかどうかを実験的に検討した。まず、コミュニケーション実験で人間の聞き手が操作していたラケットに、提案された意味学習モデルを実装し、モデルの学習能力を熟知した理想的な教示者からリアルタイムで教示を受けた際のモデルの学習状況を確認した。その結果、意味学習モデルでは、以下の点が実現できていたことが確認された。

 1.与えられた発話の韻律的特徴から、その差異を見出すことによる教示種類の弁別。

 2.成功・失敗例を報酬として活用することによる、行動を通じた未知の教示意味の獲得。

 3.警告韻律でモデルに負の報酬を与えることで、モデルのパラメータを局所解(例えば、全てのデータが一つのクラスタで説明されてしまうような状態)から脱出させることができ、その結果、最適解に達するまでの学習が継続可能なこと。ここから本モデルは、理想的な教示を与えられた際には、それらの教示の意味を学習できたといえる。

 しかし、このような技術が実際のインターフェイスに実装された場合、それを使用するユーザは先のような理想的な話し手(教示者)であるとは考えにくい。そこで第6.2節では、一般的なユーザから発話を与えられた場合でも、この意味獲得モデルはその発話の意味を獲得できるのか確認する実験を行った、また、人間はコンピュータに対して自然に話しかけることが難しいと言われているが、このような状況においても自然な発話を誘発することのできる条件を考察することは重要である。本実験ではその条件として、被験者に対して教示対象をイメージさせるようなインストラクションに注目した。その結果、以下のことが明らかになった。

 1.人間同士のコミュニケーション実験と同様の設定にした被験者、および「人間と接するように教示して下さい」とインストラクションを受けた被験者は、コミュニケーション実験でも観察されていたような「教示者の操作者に対する適応学習プロセス」を経ながら、教示の意味をモデルに獲得させていた。また、被験者はその際にストレスを感じないような自然な発話を使用していた。

 2.一方、「コンピュータに対して教示して下さい」とインストラクションを受けた被験者も、モデルに意味を獲得させることに成功していた。しかし、実験中において、二種類の行動教示を根気よく同じように与え続けた結果として、自分の行いたい教示を行えずにストレスを感じていたことが報告されていた。よって、このインストラクション条件は「ユーザが自然に使用できる」といった観点からすると望ましいものではないと考えられる。

 3.「ペットに対して教示して下さい」「しつけるように教示して下さい」といったインストラクションを受けた被験者は、行動教示と共に評価教示を使用し続けていた。このため、全ての入力音声は何らかの行動を意味している、という仮定の基に構築された本意味学習モデルでは、このようなユーザの発話意味を学習することができなかった。

 以上よりこのモデルは、一般的なユーザから自然に与えられる発話の意味を獲得する能力があることが確認された。また、ユーザが自然にコンピュータと接するためには、適切なインストラクションが与えられる必要があることが確認され、このような知見は、適応的インターフェイスの使用に当たってのキャッチフレーズ(例えば、「人間に対して話しかけるように!」)として有効に活用できるであろう。ただ、本意味獲得モデルは確率的な学習手法を使用しているため、被験者が今までと大きく異なる教示を与えた場合に、直ぐにその教示に反応して今までと違う行動を取る、といったことが実現できていなかった。よって、人間同士のコミュニケーション実験で観察されたような、相手の行動に対して逐次反応するという密接な相互適応を実現するためには、突然の教示の変化にも対応できるような学習機能を追加するなどの拡張が必要であると考えられる。

 本論文では、発話中の韻律情報が持つ普遍的機能を利用した確率的な学習手法を用いた意味獲得モデルを提案し、このモデルは実際のユーザから与えられる発話の意味をインタラクティブに理解できることを確認した。また、人間同士が行うような相互適応プロセスのように密接なインタラクションを人間─エージェント間に実現するには、開発された確率的な学習手法を用いた意味獲得手法だけでは十分ではないことも明らかにできた。ここから、本研究は人間とコミュニケーションを成立させることのできるロボットなどのインターフェイス実現への基礎的な知見として、HAI技術の確立に大きく寄与すると考えられる。

審査要旨 要旨を表示する

 本研究の最終的な目的は、ユーザとの相互適応的な関係を通じた自然なコミュニケーションを成立させることのできる、適応的な音声インターフェイスを構築することである。ここで相互適応的な関係とは、ユーザがインターフェイスに対して適応学習し、その適応に基づいてインターフェイスもユーザに適応学習するというプロセスを繰り返す関係のことである。本論文では、そのための第一歩として、ユーザの適応を促しかつその適応を利用するという相互適応の一部分をユーザとの間に実現することで、ユーザの発話意図を理解する意味獲得モデルの構築を行っている。

 第1章では、上記のような本論文の目的を説明している。

 第2章では、本論文に関連した先行研究との比較を行っている。具体的には、(1)適応する存在としての人間の認知的特性に注目し、それを具体的に観察。分析している点、(2)ユーザの適応を促しかつその適応を利用することでユーザの発話意図を理解する意味獲得モデルを構築している点、(3)ユーザの発話と行動とのマッピングを学習する意味獲得モデルを構築する際に、韻律情報に含まれる普遍的な情報を利用している点、に本論文の独創性があることを説明している。

 第3章では、まず人間の適応能力を観察。分析する実験を行った上で、そこで観察された人間の適応能力を利用して、人間の発話意図を理解する意味獲得モデルの構築を行う、という本論文のアプローチが示されている。

 第4章では、簡単なピンポンゲームを用いて人間の適応能力を観察するコミュニケーション実験について説明している。この実験では、ボールが隠されていて見えない操作者に別室の教示者が教示を行うが、その際、操作者は、教示者の教示発話中の音韻情報が利用できずに、発話中の韻律情報しか手かがりにできないような環境を設定し、教示者の発話意味を操作者がどのように理解していくのかを観察している。その結果、音韻情報としては未知の教示の意味を獲得することができた被験者ペアでは、お互いが相手のことを学習しながら相手に徐々に適応していくという相互適応的なプロセスが観察され、以下に示す点が。意味獲得の成功要因だと報告している。すなわち、教示者側にあっては、(1)使用する教示の種類を減少させ、(2)警告韻律を用いることで操作者の行動に注意を与えている点、操作者側にあっては、(1)発話が与えられてから行動することで、現在の教示に対する理解度を教示者に示し、(2)異なる種類の発話に対しては異なる行動をとり、(3)与えられた警告韻律を利用して自分の行動を修正している点、である。

 第5章では、コミュニケーション実験で観察された操作者側の学習を実現するような、発話意味を獲得する学習モデルの提案を行っている。このモデルは、ラケットにボールを当てられたときに与えられる正の報酬を受けた際の直前の教示音声。行動のデータ(音声─行動データ)を蓄積し、教示意味を表す複数のクラスタ(分布)にこのデータを分類することで発話の意味学習を実現している。この際、正規混合分布から行動データが生成されると仮定したため。それぞれの正規分布のパラメータ(平均値・分散)を求めることが教示の意味学習に相当する。具体的には、EMアルゴリズムを用いて混合分布中の各分布のパラメータを推定しているが、従来のEMアルゴリズムでは負の報酬(警告韻律と呼ばれる、教示者が操作者に注意を与えた場合に現われる普遍的な韻律パターン)を学習に利用できないので、従来型のEMアルゴリズムのEstepを拡張した拡張型EMアルゴリズムを提案している。

 第6章では、この提案された意味獲得モデルが、教示者とインタラクションしながら発話の意味を学習するモデルとして適しているのかどうかをコミュニケーション実験で人間の操作者が操作していたピンポンゲームのラケットに第5章で提案した意味獲得モデルを実装し、実際に一般のユーザからリアルタイムで教示を受けた際のモデルの学習状況を観察している。その結果、実験者から事前に与えられるインストラクションの種類に依存するものの、このモデルが、一般のユーザの適応を促しかつそのユーザの適応を利用するという相互適応の一部分を構築することで、与えられた教示の意図通りに行動できたことを報告している。その際、韻律情報における普遍的な機能の一つとみなされる警告韻律を、意味学習において負の報酬として利用できたことも報告している。

 第7章では、この意味獲得モデルによって実現できた、ユーザとインターフェイス間の部分的な相互適応を、人間同士で見られる真の意味での相互適応に発展させるための課題点について述べている。また、構築された意味獲得モデルが、インターフェイスの自動カスタマイゼーション技術や、人間とコミュニケーションが可能なペットロボットの基礎技術、などに応用可能なことを議論している。

 第8章では、本論文の成果をまとめている。

 従来のインターフェイス研究では、人間の適応性が考慮されておらず、本論文のように具体的な設定に基づく分析やモデルの構築はなされていなかった。これに対し、本論文では、人間の適応性という認知特性を実験的に分析した上で、実験者から与えられるインストラクションの種類には依存するものの、一般のユーザの適応を促しかつその適応を利用して、ユーザから与えられる発話の意図を理解できる意味獲得モデルを提案している点に、第一の独創性がある。さらに本論文では、従来の音声インターフェイス研究の多くが注目している音韻情報ではなく、韻律情報に焦点を当てている点にも独創性がある。

 以上に記した通り、本論文は、ヒューマン。コンピュータ。インタラクション研究や適応的インタフェース研究において十分な独創性を有しており、その成果を将来的に工学システム(インターフェイスやロボット)へ応用できる可能性も高い。したがって本論文が、これらの分野に大きな貢献をもたらすものであると判断し、博士(学術)の学位を授与するにふさわしいものと審査委員会は認定する。

UTokyo Repositoryリンク