学位論文要旨



No 117987
著者(漢字) 濱田,玲子
著者(英字)
著者(カナ) ハマダ,レイコ
標題(和) 索引付けのための映像とテキスト教材の対応付けシステム
標題(洋)
報告番号 117987
報告番号 甲17987
学位授与日 2003.03.28
学位種別 課程博士
学位種類 博士(工学)
学位記番号 博工第5445号
研究科 工学系研究科
専攻 電気工学専攻
論文審査委員 主査: 東京大学 教授 田中,英彦
 東京大学 教授 原島,博
 東京大学 教授 坂内,正夫
 東京大学 教授 石塚,満
 東京大学 教授 西田,豊明
 東京大学 教授 坂井,修一
内容要旨 要旨を表示する

・背景と目的

 近年、テレビやビデオ、WWWなどを通して発信される膨大なマルチメディアデータを収集・整理し、効率の良い利用法を模索する研究が盛んに進められている。マルチメディアデータとは、主に画像・音声・テキスト情報が同期したデータ群である。従来は画像を利用した解析が主流であったが、画像認識単独での映像の意味の把握や、高度な構造化は非常に困難であった。そこで1990年代に入り、各メディアからの情報を統合することによってより簡単な処理でより大きな効果を得ようとする統合処理が検討されるようになった。各メディアにおける要素技術は、歴史が古いこともあり数多く開発されているが、統合そのものに関してはいまだに単純な方法を採用している研究も多い。

 そこで我々は、完全には同期していない複数のメディアを統合的に処理することにより、実用的な統合システムの検討・構築を目指している。本研究では、メディアの中でも比較的意味情報を抽出しやすいテキストに着目し、テキスト教材の存在する教養番組の映像とテキスト教材の対応づけを目指す。複数メディアからの情報を有効に統合するため、テキストの解析結果を映像理解に反映させることで、各メディア処理単体での困難な点を回避し、より効果的な処理を目指す。

 映像の索引付けに関してはこれまでにも様々な研究がなされており、対象を一般化しようとする研究も多い。しかし、個々の要素技術の限界、また対象に固有の知識を利用できないことなどにより、対象を限定した場合よりも精度が低下することがほとんどである。さらに、索引の種類が一般的なものに限られるため、対象映像の種類によっては処理自体が有効でなくなる。そこで本研究では、対象を限定してその特徴を利用することにより、より高精度かつ効果的な索引付けを行なう。

 ここで、本研究では教養番組の中でも最も親しまれている料理番組に対象を絞ったシステムを提案する。料理番組にはほとんどの場合テキスト教材が存在するが、教材では表現しきれない様々な情報が映像に含まれており、テキストと映像の情報を統合的に利用することの効果は大きい。本研究では対象を料理番組に限定することで、対象に関する知識を最大限に活かした実用的な統合システムの構築を目指している。最終的には、料理番組における映像とテキスト教材を対応付けることで、映像とテキストの対応する各部分がリンクされた新しい形態のマルチメディアデータの自動生成を目標とする。これにより、抽象度の高い適切な索引が映像につき、台所環境における調理支援システムやマルチメディアデータベースの構築およびその検索など、統合されたマルチメディアデータを利用した様々な応用アプリケーションの開発も可能となる。

・提案システムの概要

 本研究では、テキスト教材の情報を最大限に利用するため、まずテキスト教材における調理手順の構造解析を行なう。その際に、大量のテキスト文書を解析して作成した独自の辞書を利用する。映像処理においては、まずカット検出およびショット分類を行ない、さらに動き及び背景の解析を行なって、映像構造を抽出する。音声からは、クローズドキャプションを利用したテキスト処理によってキーワード抽出を行なう。最後に、映像および音声情報と統合することによりテキストから抽出された手順構造の制約条件を解き、映像とテキストの対応付けを行なう。

 まずテキスト処理部においては、料理テキスト教材における調理手順の説明文書に対して構造解析を行ない、手順のフローグラフを抽出する。この際には、大量のテキスト文書から統計的に抽出して手動で訂正した辞書を利用し、文脈解析を行なう。調理手順における構造は、複数の素材が調理されたり混ぜられたりして最終的に一つの料理としてまとまるツリー構造のフローグラフとなる。このフローグラフから調理順序の制約条件を抽出することで、映像における調理手順との対応付けに利用する。

 次に、映像の区切り検出における最も重要なヒントはカット点である。本研究においては、DCTクラスタリングを利用するカット検出手法を導入し、映像をショットに分割する。料理映像におけるショットは大きく手元ショットおよび人物ショットに分けられる。我々は、肌色の統計データおよび料理映像の特徴を利用した顔認識手法によって、人物ショットと手元ショットの自動分類を90%以上の精度で実現した。料理映像においては人物ショットと手元ショットがほぼ交互に出現する。視覚的には動作や道具などが大映しにされる手元ショットが特に重要であると考えられるが、その中にも特に重要な部分と、動作と動作の間など比較的冗長な部分が含まれる。そこで我々はこのように手元ショットのなかにさらに含まれる構造を解析し、各手元ショットの特徴を抽出することで、テキストとの統合処理の際に有効な情報として利用する。

 ここで、料理映像においては特に調理動作に関する視覚的情報が重要であると考えられる。そこで、画面全体の動きの大きさを解析することで、動きによる映像構成の推測を行なう。さらに、全体的な動き解析のみでは動きの種類や特に重要な動作などを区別することできないため、繰り返し動作の自動検出手法を提案する。この手法においては、特に料理映像においては重要な動作の多くが繰り返し動作であることに着目し、その周期性を利用することで、約90%の精度で繰り返し動作の自動検出を実現した。

 また、料理映像の構造は、動作の有無の他に、各動作が行なわれている背景から分析することができる。料理映像においてはほとんどの調理はすべて台所で行なわれるが、同じ台所でも、レンジ台、流し台、調理台など、動作の特徴によって背景が異なることが多い。従って、背景を解析することによって動作のおおまかな種類やその順序などの情報を得ることができる。本研究では、あらかじめ教師つき学習によって複数の料理番組に共通の画面構成を抽出し、画面内で背景が映る確率の高い位置を特定した。これにより、色情報によるクラスタリングによって高精度な背景の自動分離を実現した。

 最後に、映像中の音声内容も統合処理の際には大きなヒントとなる。本研究では、テレビ局から提供されるクローズドキャプションに言語処理を施してキーワード抽出を行ない、その結果を統合処理に利用する。

 統合処理部においては、テキスト処理によって抽出されたテキストのツリー構造と、映像における線形な順序構造を対応づける必要がある。そのため、映像における背景の構成、またクローズドキャプションからの音声内容に関する情報を利用し、テキスト教材の順序構造を解く。順序構造を解くのと同時に、映像にテキストの各部分が対応づけられる。動きの解析結果を利用することで、動作単位の細かい索引まで映像につけることが可能となる。

・むすび

 本研究では、料理映像を題材としたマルチメディア統合処理システムの構築を行なった。これにより、対象に関する知識およびテキスト情報を活用した統合処理によって、有用な索引付けシステムの構築が可能であることを示した。

 本システムの手法を応用することで、実験・組み立てなど、手順書つきのインストラクション・ビデオに対する索引付けが可能になると考えられる。特に料理映像は教育的な内容である上に生活に密着しているため、様々な実用的な応用が可能となる。例えば料理映像の自動要約による閲覧システム、マルチメディアデータベース、マルチメディア調理支援・教育システムなどが挙げられる。また、適切なセンサなどと組み合わせれば、インテリジェント・キッチン、自動調理システムなどへの応用も考えられる。

審査要旨 要旨を表示する

 本論文は、「索引付けのための映像とテキスト教材の対応付けシステム」と題し、9章からなる。現代社会は、テキスト、画像、映像、音声など、様々な情報を日々膨大に生成しており、それらを区別してコンピュータで扱うためには、個々の情報に索引を付ける必要がある。テキストヘの索引付けは比較的容易であるが、時間的に流れる映像に対して、個々の映像内容を反映した自動的な索引付けは一般に非常に困難である。しかし、映像には、料理番組など、それに関連したテキストが付随するものも存在し、それらの関係を用いれば比較的容易に内容に応じた索引付けができる可能性がある。本研究は、そのような画像への自動的な索引付け手法を論じたものである。

 第1章「序論」は、研究の背景、目的を述べるとともに、本論文の構成についてまとめたものである。

 第2章「マルチメディア処理と映像の索引付け」は、一般的な映像の定義と構成について整理し、付随するテキストメディアとしては、画像中の字幕、音声認識結果、外部テキストなどを対象とすることを述べ、映像の索引付けに関する問題点を分析して、同じ処理であらゆる映像に有効な索引を付ける一般的な手法を目指すよりも、可能な範囲で対象映像の種類を限定してそれに特有の情報を使うことの有効性を述べるとともに、複数のメディアの統合処理関連研究についてまとめている。

 第3章「映像とテキストの対応付けシステムの概要」は、本論文で提案する映像とテキスト教材の対応付けシステムの概要について述べたものである。すなわち、テキスト教材を解析して調理手順の構造を解析した結果と、映像処理のカット検出及びショット分類、更に動きや背景の解析によって映像構造を抽出した結果、更に音声からはクローズドキャプションにキーワード抽出をおこなった結果、これらの結果を統合処理することによりテキストと映像の対応付けをおこなうシステムを提案している。

 第4章「テキスト処理部」は、3章で述べたテキスト処理部の詳細を論じたもので、テキストに書かれた手順を自然言語処理により分析し、手順のデータフローグラフを作成する手法を与えている。そのために、まず、大量の料理手順文書から「材料」「手順」のキーワードを統計的に収集して、名詞では1930、動詞では389の語彙を集め、対象領域に固有の辞書を作成している。次に、各単語の辞書における属性を利用して、調理手順の構造解析を行う手法を与えているが、それは、語の属性解析、名詞・動詞セットの形成、セットの接続によるブロックの形成、ブロックの接続の4ステップからなる。この手法を特定の番組からランダムに選んだ22レシピに対して評価した結果、単語およびセットの抽出率は再現率・適合率ともに100%近い精度であり、各手順の構造は90%、総合解析結果で80%以上の精度が可能であることを示している。

 第5章「映像処理部」は、提案システムの画像処理手法について述べたもので、カット検出、ショット分類、動きによる構成解析、背景クラスタリングなどの要素技術からなる。動きに基づく映像構造の解析では、オプティカルフローの大きさを分類することにより、食材の状態を示す静止部分や、調理動作部分を高精度で検出可能なことを示し、また、繰り返し動作が、重要な調理動作の中核を占めることに着目してそれを抽出するアルゴリズムを与え評価した結果、再現率86%、適合率92%の結果を得ている。また、背景クラスタリング手法は、料理映像に特有の画面構成を抽出し、背景が写っている可能性が高い特定位置の色情報を用いてショットをクラスタリングするもので、全体で87%の精度を出すことが可能なことを示している。

 第6章「統合処理部」は、テキストと映像の対応付けをおこなう手法について述べたもので、音声・映像・テキストからの情報を統合的に利用する手法を与えている。料理映像においては、テキストと映像が必ずしも同じ順序ではなく、また、テキストの一部が映像内では省略されることも多く、完全には同期しないメディア同士の対応付けを実現することになる。テキスト教材からは、内容が一続きであると考えられる部分をテキストブロックとして抽出し、映像に対しては、背景クラスタリングの結果を用いて同じ背景に属すると考えられるショットを集めてシーンを形成し、これらの間を対応付けるために、調理手順順序の制約条件、背景によるクラスタリング結果、テキストとクローズドキャプションの共通単語数などの情報を利用している。対応付けは時間的に後ろから前へ向かっておこない、関連度の高い対応付けを残すという形で行っている。評価の結果、80%程度の精度で対応付けが可能であることを示している。

 第7章は「提案手法の応用」で、各要素技術の応用や、総合システムの応用としての映像の自動要約技術について述べている。

 第8章は「今後の課題」で、明らかになった問題点、及び今後の改善点について議論している。

 第9章は「結論」である。

 以上、これを要するに本論文は、映像の内容に基づいた索引付け手法の一つとして、テキストが付随する料理番組を取り上げ、複数メディアからの情報を利用した統合処理によりそれが可能であり、実用的で効果的な索引付けには対象を絞りその特徴に最適化した処理が重要であることを示し、システムとして実証したもので、電気工学上貢献するところ少なくない。

 よって、本論文は、博士(工学)の学位請求論文として合格と認められる。

UTokyo Repositoryリンク http://hdl.handle.net/2261/1830