学位論文要旨



No 122801
著者(漢字) 瀧本,政雄
著者(英字)
著者(カナ) タキモト,マサオ
標題(和) 同一場面映像の照合による大規模映像アーカイブ構造化
標題(洋)
報告番号 122801
報告番号 甲22801
学位授与日 2007.03.22
学位種別 課程博士
学位種類 博士(情報理工学)
学位記番号 博情第131号
研究科 情報理工学系研究科
専攻 電子情報学専攻
論文審査委員 主査: 東京大学 教授 石塚,満
 東京大学 教授 安達,淳
 東京大学 教授 池内,克史
 東京大学 教授 相田,仁
 東京大学 助教授 苗村,健
 国立情報学研究所 教授 佐藤,真一
内容要旨 要旨を表示する

 本研究は、大量に蓄積された映像を効果的に利用するための、映像データベースの構造化を目標としたものである。大量の映像を扱う環境は、近年著しく充実してきているが、蓄えた映像を内容的に扱うような技術はあまり発展しているとはいえない。例えば、MPEG7ではメタデータの記述が可能であるが、このように人手で付加するものに関しては、記述する内容の選択基準が偏るのが問題である。そもそもあらゆるユーザが望む情報をメタデータとするのは不可能であるため、何らかの形で自動的に多くの映像を解釈し、それらの内容や関連性を抽出する手法が求められることとなる。

 そこで、映像の内容に基づくようなアーカイブのインデキシングのために、同一の場面を撮影する部分映像の存在に注目した。本研究ではTV放送映像を解析対象とするが、TV放送映像の特徴として、同じ場面を撮影した映像が繰り返し利用される、というものがある。同一場面映像が使われているということは、その映像が含まれる番組間に内容的な関連性が存在することを示し、インデキシングのための有意義な情報となりうる。また、繰り返し利用されるような映像は、それらが放映された時期に少なからず注目を集めたような内容を含むものであることが推測され、大きな内容的価値を有すると考えられる。

 このような理由から、本研究では同一場面を撮影した映像の探索を行うことを目標とし、そのために必要となる手法として同一場面映像照合手法を提案する。同一場面を撮影した映像であっても、放送される番組によりその形態は大きく異なる。撮影するカメラ、さらには編集時に付加されるテロップなどは局や番組により異なるものであり、これらにより映像の外見は大きく変化する。また、一つの場面において、放送に利用される時間的な区間はだいたい共通してはいるものの、全ての番組において完全に一致することはまずありえない。そこで、これらの画像的な差や時間的な差を吸収するという問題を解決することが重要であり、また、提案手法の大きな特徴である。

 本論文では2種類の手法を提案しているが、これらは画像的な特徴量そのものではなく、それらの変化するパターンの共通性から照合を行う、という点で共通している。一つは、カメラのフラッシュがたかれる場面において、そのフラッシュの発生パターンを利用するというものである。もう一つは場面内のオブジェクトの動きに関して、動きの向きや速度の変化に注目している。このようなパターンは、カメラの違いやテロップの存在などによる影響をあまり受けず、さらには時間軸に沿ったパターンであるがゆえに放送される時間的な部分の差にも対応できる。

 また、大規模な映像アーカイブを前提としているため、計算時間の抑制も最重要課題である。既存の画像もしくは映像に関する解析手法は、その精度が重要視される一方で、大規模なアーカイブを前提とするような計算処理はそれほど重視されない傾向にある。それに対し提案する手法は、例えば検索などのアプリケーションに利用することを想定した上で、現実的な処理時間で行えるように設計されている。このようなアプローチは、大規模な映像アーカイブといった環境が今後さらに充実するに従って、より強く求められる要素であると言える。

 以上が本研究の要点であり、これらを詳細に述べるものとして、本論文は以下のように構成される。2章では、より厳密な映像構造化の定義とその効果について議論する。3章、4章では提案手法の詳細を説明し、それらを適用した際の実験結果を示す。5章では全体のまとめを行う。

審査要旨 要旨を表示する

 本論文は、「同一場面映像の照合による大規模映像アーカイブ構造化」と題し、5章で構成される。現在、デジタル映像の利用は一般に広まっており、また、ディスクの容量の拡大などのインフラの発展により、デジタル映像を大量に蓄積したアーカイブの利用が現実的なものとなっている。そこで、そのようなアーカイブをより効率的に利用するためのアプローチとして、アーカイブの構造化に注目し、そのための手法の考案、実装、そして実験による性能評価をまとめている。

 第1章「はじめに」では、研究の背景となるデジタル映像アーカイブの利用に関する現状から、本研究の目的である映像アーカイブの構造化の必要を示し、その目的のための同一場面を撮影した映像を照合するというアプローチについて簡潔に述べている。

 第2章「映像アーカイブ利用のためのアプローチ」では、本研究の目的とする構造化とは何か、構造化により何が実現されるのかといった点に関する議論を行っている。現在デジタル映像を扱うような技術には様々なものがあり、それぞれに発展しているが、現状で完全な内容把握を行えるような手法と言うものは存在しない。その中で、本研究の提案手法である映像照合が果たしうる役割について議論している。また、映像照合手法も細かく分類することが可能である。本研究で提案する同一場面映像照合は、これまで扱われてこなかったような場面の同一性に注目して照合を行う点に新規性を持つ。このような同一性の定義を行うことで、例えば撮影しているカメラが異なるような映像間の照合を行える必要がある。また、視覚的に類似するような映像でも、場面が異なる場合は区別しなければならない。これが既存の映像照合手法との最も大きな違いであり、既存の手法のサーベイによる比較と併せて本研究の位置づけを明らかにしている。

 第3章「フラッシュパターンによる照合」では、映像内でカメラのフラッシュがたかれる時間的なパターンの同一性による照合手法を提案している。完全に時間的なパターンであるため、カメラの違いなどには左右されない。フラッシュという現象は、画面全体の輝度値を大幅に変化させるために比較的検出を行い易い。発生パターンは、フレームごとにフラッシュが発生したか否かを示す、0か1の二値のシーケンスで表すことができるため、特徴量としての保存性に優れる。また、シーケンス同士の比較は、映像データの直接の比較に比べて遥かに高速に行うことができるという利点も持つ。実験の結果、フラッシュの発生パターンが、正しく同一のフラッシュがたかれるだけの場面を識別する能力を持っていることが確認され、それと同時に照合の高速性も示されている。

 第4章「動きの変化パターンによる照合」では、フラッシュパターンによる照合と比較して、より多くの映像に適用可能な映像照合手法を目指し、映像内の物体の動きによる影響に注目している。映像を表す時空間内での多数の特徴点の軌跡をもってショットのモデルとすることで、ショット間の照合を行っている。それぞれの軌跡はやはりフレームごとの数値のシーケンスとして表現されるために、保存性や照合の高速性といった第3章で提案した手法の長所を持ち合わせている。照合精度や速度は実験により性能評価を行われ、その結果、既存の手法では照合できなかったような映像の照合、そして誤って照合されていた映像の区別、といった点での有効性が明らかとなっている。また、第3章と第4章で提案した同一場面映像照合手法の照合結果を利用するような一つのアプリケーションの実装を行い、アーカイブ構造化という目的のための一つのアイデアを実現した。ニュース番組における同一場面映像の時間的な頻出度の高い映像区間を抽出することで、その日の主要なニュースに関わるような映像を含むような区間が取得されている。

 第5章「結論」では、本研究の総括を行うと共に、今後の展望を明らかにしている。

 以上これを要するに、本論文では、放送映像アーカイブの構造化を目的として、同一の場面を撮影したような映像という新しい基準に基づく照合を高速に行うために、フラッシュパターンによる照合と動きの変化パターンによる照合の2種類の手法に関して、提案、実装及び性能評価を行いその有効性を示し、これにより映像アーカイブの利用のための有益な知見が得られており、電子情報学上貢献するところが少なくない。

 よって本論文は博士(情報理工学)の学位請求論文として合格と認められる。

UTokyo Repositoryリンク http://hdl.handle.net/2261/25880