学位論文要旨



No 119013
著者(漢字) 小河,誠巳
著者(英字)
著者(カナ) オガワ,トモミ
標題(和) 音声に基づく映像インデクシングに関する研究
標題(洋)
報告番号 119013
報告番号 甲19013
学位授与日 2004.03.25
学位種別 課程博士
学位種類 博士(工学)
学位記番号 博工第5745号
研究科 工学系研究科
専攻 電子情報工学専攻
論文審査委員 主査: 東京大学 教授 相澤,清晴
 東京大学 教授 原島,博
 東京大学 教授 坂内,正夫
 東京大学 教授 石塚,満
 東京大学 教授 柴田,直
 東京大学 教授 相田,仁
内容要旨 要旨を表示する

近年の情報処理分野の発展に伴い,記録装置の大容量化,DVDメディアの普及,BS,CSディジタル放送,さらに地上波ディジタル放送の開始と映像コンテンツを取り巻く環境は大きな変動の時期にある.特に個人を中心とした映像コンテンツの動向に目を向ければ,PCの低価格化,HDDの低価格化,大容量化,ブロードバンドの普及,そしてホームビデオの普及によって,個人の映像の楽しみ方の可能性が広がりつつある.こうした中,個人が様々な種類の非常に大量のコンテンツの中から,どのようにしてそのユーザが映像情報の管理を行うか,自分の好みの映像を探すか,または効率的に映像を概観するかといった,映像の管理,検索,閲覧等様々な問題が生じつつある.個人で取り扱う映像の量が増えたとしてもその映像を扱う環境が整っていなければ,膨大な映像資産を十分に生かす事ができないのである.

そこで本研究では,近年急速に普及しつつあるホームビデオ映像を対象に,上記の問題点の解決を目的とした映像インデクシング手法を提案する.さらに,ホームビデオ映像の特徴を明らかにすることで本研究の目的を明確にする.ホームビデオ映像には放送映像とは本質的に異なる点がいくつか存在するため,放送映像を対象にした映像インデクシング手法がそのまま適用できない場合も多い.自動的なインデクシング手法の確立は貴重な個人の記録であるホームビデオ映像のより効果的な取り扱いを可能にするであろう.

ホームビデオの放送映像との最も重要な相違点は,ホームビデオ映像が個人で取り扱う限り,商用を目的としていない点である.これはつまり,映像の編集や検索のためのメタデータの付与をユーザ本人の責任で行わなければならないことを意味している.放送映像では,人を雇い,十分な資金を用いてこれらの作業を効率的に集中的に行うことができる.しかし,個人でホームビデオ映像のためにそこまでの努力や,資金,時間を消費することのできる人は稀であろう.ホームビデオで撮影されるイベントは,たとえば日常生活の様子,結婚式や,旅行,または会議の様子,プレゼンテーションの記録等が考えられる.会議の様子や,プレゼンテーションの記録は個人で楽しむ思い出の記録ではないが,商用を目的としなければ編集や検索,閲覧,管理のために費やすことのできる時間や,資金,人手は限られたものになるであろう.

ここで,ホームビデオの放送映像に対する相違点は次の3つの点にまとめられる.

ホームビデオ映像は一般に冗長である

放送映像と異なり決まった構造を持たない

映像の情報管理を個人で行わなければならない

1)に関しては,未編集の映像は映像の流れが洗練されておらず,全体の内容がつかみにくいといえる.効果的に映像のストーリーをまとめて,わかりやすく編集するには多大な労力を必要とする.また,2)に関してはたとえば,スポーツ映像やニュース映像がわかりやすいだろう.これらの映像は開始から終了まである一定の規則に則った映像となっている.野球であれば,ピッチャーの後ろ側から映した映像,バッターの映像,ヒット,ホームランなどイベントを定義することで,その映像の内容を統一的にまとめることが可能である.ニュース映像においても,アンカーショットから記事の内容の映像に移り,またアンカーショットに戻るといった映像の流れが定義できる.しかし,ホームビデオ映像という一般的な映像を取り扱う場合は,こういった構造を定義できないため,ホームビデオに適したイベントの定義,インデックスの定義が必要であろう.さらに3)では,ホームビデオは個人で取り扱う映像メディアであるため,web や雑誌から映像の情報を取得できない,何らかの機関から映像に関する情報提供が期待できないという点がある.放送映像では,映像の登場人物や放映時期,全体の概要等の情報は放送局,web 等から取得することが可能である.

これまで,ホームビデオ映像を対象にしたインデクシング手法,映像要約手法はいくつか提案されているが,音声をインデクシングの対象としたものは少ない.そこで,本論文ではホームビデオ映像の中でも特に音声情報に注目したインデクシング手法について提案した.また,これまで様々な音声特徴量が提案されており,それらの特徴量における本論文で定義する音声イベントの特性を明らかにする.なお,本論文で提案する手法はホームビデオ映像の効果的な利用を目指したものではあるが,音声情報自体に放送映像,ホームビデオの差はないため放送映像に適用することも可能である.

本論文で提案する手法は,判定ルールに基づいた手法と Gaussian Mixtures Models (GMM) を用いた手法の2種類である.これらの手法では音声イベントとして,発話,無音,音楽,背景音の4つを定義し,インデクシングを行う.さらに,従来では一つのセグメントに対して一つのイベントを対応させる手法が主流であった.そこで,本論文で提案する手法では,これらの音声イベントを一つのセグメントに対して,複数のイベントを対応させるという意味で,層状インデクシングとして提案する.

判定ルールに基づいた手法では,特徴量と音声イベントの関係から各イベントを識別するためのルールを導き出しさらに,1秒間のセグメントに対して複数の音声イベントを対応づける層状インデクシングを実現する.概要としては,発話,音楽,背景音それぞれのトレーニングデータを用いて特徴量を求める.これらの特徴量は音声イベント(発話,音楽,背景音)毎に異なった分布を持っているため,あるルールを適用することにより音声イベントの判定が可能となる.本手法では,これらの特徴量の音声イベントとの関連に基づいて,発話,音楽,背景音を検出するためのルールをそれぞれ導いた.このルールの出力は,音声イベント毎に独立して得られるので層状インデクシングが可能である.なお,本手法では無音の検出に関しては STE (Short time energy) の閾値処理を用いている.最終的な層状インデックスはそれぞれの音声イベント判定ルールの出力に対して閾値処理を行い,閾値よりも高い値を持つセグメントに対してインデックスを付与する.

実験ではテストデータとして混合のないイベント,複数の音声イベントが混合しているデータに対して本手法を適用し,本手法の性能を検証した.また,実際のホームビデオで録音された音声を用いて層状音声インデクシングを行った.実験ではテストデータとして混合のないイベント,複数の音声イベントが混合しているデータに対して本手法を適用し,本手法の性能を検証した.また,実際のホームビデオで録音された音声を用いて層状音声インデクシングを行った.

実験により,各音声イベントが重なりをもたないテストデータでは本手法により適切な検出を行うことができることを確認した.しかし,実際のホームビデオデータでは発話に関しては良好な検出がされたが.しかし,音楽,背景音に関しては適切な検出もされているが誤検出が多くあった.

次に,GMMを用いた層状音声インデクシングを提案する.先に判定ルールに基づいた手法を提案したが,本手法では発話,音楽,背景音をトレーニングデータとし,GMMに学習させることで統計情報に基づいた手法について検討する.判定ルールに基づいた手法は発見的な手法であった.そこで,本手法では GMM を用いてトレーニングデータの特徴量の統計的な情報に基づいた手法を提案する.概要としては,まず発話,音楽,背景音のトレーニングデータに対して,GMM パラメータの学習を行う.GMM のパラメータの学習には EM アルゴリズムを用いた.次に,学習された GMM に対して,テストデータを適用し尤度を求める.最終的な層状インデックスは尤度に閾値処理を適用することで確定を行う.実験データには重なりをもたないテストデータ.重なりを持たせたテストデータ,実際のホームビデオで録音された音声を用いて本手法の性能を検証した.

本手法では重なりを持たないデータに対しては,ほぼ良好な結果を得ることができた.しかし,ホームビデオデータに対しては判定ルールに基づく手法と同様に音楽,背景音の適切な検出もされたが誤検出も多くあった.

また,本論文ではホームビデオ映像に対する映像ブラウザの試作も行った.本ブラウザでは音声イベントの発生毎にキーフレームをサムネイルとして表示し,映像中の任意のショットにアクセス可能である.任意のショットの再生中にはどのイベントがそのショット内に存在するかを表示することにより,ユーザにインデックスと映像内容との対応関係を提示している.

以上のように本論文では,放送映像とホームビデオ映像の比較を行うことにより,ホームビデオ映像の特性を明らかにし,従来提案されてきた音声特徴量における本論文で定義した音声イベントの特性を示した.また,音声に基づいた層状インデクシング手法を,判定ルールに基づく手法とGMMに基づく手法につい提案し,映像ブラウザの試作を行った.

審査要旨 要旨を表示する

本論文は「音声に基づく映像インデクシングに関する研究」と題し、8章よりなる。一般にビデオカメラ、デジタルカメラといった映像機器が広く利用されるようになり、個人で扱う映像も飛躍的に増えている。増大する映像データに適切なインデクシングを行うことが急務となっている。本研究では、音声データの解析を通して、ホームビデオなどの映像の分類を行っている。音声データを基本的に4つのクラスに分類することで、インデックスを与え、周囲の状況を把握するキーを与えている。音声は、複数が自然に重なり合うため、分類にあたっても、分類が層状に重なり合う層状インデクシングを提案している。2つの手法を検討するとともに、さらに詳細な分類の試みを行った。また、音声分類を利用する映像のブラウザを構築している。

第1章は、「序論」であり、本論文の背景とその構成について述べている。映像によるインデクシング、音声を用いたインデクシングについてその概略にふれ、音声を用いた手法の位置づけを述べている。

第2章は、「映像及び音声インデクシングに関する関連研究」と題し、映像インデクシングに関する関連研究をまとめている。また、音声を利用するインデクシング、ホームビデオのインデクシングについてもその動向を述べている。

第3章は、「音声の分類と特徴量に関する考察」と題し、音声解析を通じて利用できる代表的な特徴量に関して、その定義を行い、テストデータに対してそれらの統計的な振る舞いを調べている。

第4章は、「ルールに基づいたホームビデオのための音声層状インデクシング」と題する。音声を、人の発話、無音、音楽、背景音の4クラスへの分類を行う。音声は、重なり合うのが自然なため、排他的ではない重なりを許容した層状のクラス分けを提案している。各クラス毎に代表的な音声特徴量を選び、非線形関数を介した指数を定義する。音声セグメント毎にその指数を算出し、さらに閾値処理を施して、音声セグメントの暫定インデクス付与を行う。最終的に、ノイズ除去のための平滑化処理と確定処理により、音声セグメントに一つあるいは複数のインデクスを付与する。合成的に作ったテストデータにて、混合の度合いによる検出率の評価、屋外で取得したホームビデオの音声データに対しての実験評価を行った。

第5章は、「GMMを用いたホームビデオのための音声層状インデクシング」と題する。前章のアプローチとは異なり、GMM(混合ガウスモデル)の学習に基づく音声の層状インデクシングを検討した。前章と同様に、音声を4つのクラスへ分類している。GMMの混合数を変えながら、屋外で取得したホームビデオの音声に対しての分類実験を行い、評価している。人が聴覚のみで分類した場合との対比を行い、適合率、再現率の評価も行っている。

第6章は、「映像のより詳細な分類」と題し、前章までの分類が4つであったのに対して、2つの観点からのより細かな解析を試みている。一つは、発話の検出に続く話者認識の試みであり、もう一つは、4つのクラスの生起パターンによる状況の分析である。前者においては、発話区間において、GMMに基づく話者識別を試みている。しかし、雑音が影響し、話者識別の精度は50%以下にとどまっている。また、後者では、発話、音楽、背景音の重なり合いの多いところを、雑踏として検出することを試みている。

第7章は、「ホームビデオのための映像ブラウザ」と題し、音声の層状インデクシングが施された映像データを一覧するためのブラウザの作成に関して述べている。

第8章は、「結論」であり本論文の成果をまとめ、残された課題について記している。

以上これを要するに、本論文では、増大する映像データのインデクシングとして、音声に基づく層状インデクシングの手法を提案し、音声を4つのクラスに層状にわける手法を検討し、さらにより詳細な分類についても述べている。本論文で論じた音声インデクシングは、将来の映像コンテンツの管理に寄与することが期待され、電子情報工学上貢献するところが少なくない。よって本論文は博士(工学)の学位論文として合格と認められる。

UTokyo Repositoryリンク