学位論文要旨



No 119016
著者(漢字)
著者(英字) Cooharojananone,Nagul
著者(カナ) クーハロッチャナノン,ナッグン
標題(和) 適応的なサンプリングアプローチによるショットに基づいた映像要約に関する研究
標題(洋) Shot-Based Adaptive Sampling Approach to Video Summarization
報告番号 119016
報告番号 甲19016
学位授与日 2004.03.25
学位種別 課程博士
学位種類 博士(工学)
学位記番号 博工第5748号
研究科 工学系研究科
専攻 電子情報工学専攻
論文審査委員 主査: 東京大学 教授 相澤,清晴
 東京大学 教授 原島,博
 東京大学 教授 坂内,正夫
 東京大学 教授 柴田,直
 東京大学 教授 石塚,満
 東京大学 教授 相田,仁
内容要旨 要旨を表示する

近年、デジタル・ビデオが広く普及し様々な領域で利用されるようになってきた.この背景にはインターネットの広帯域化,ユーザ数の増大に伴った映像を含むマルチメディア技術の発達もある. また,DVD,デジタル放送によってハイビジョンクラスの高品質な映像,音声が消費者へ提供されるようになり,デジタル・ビデオ市場は急激な成長を見せている.さらにデジタル技術の進歩によってデジカメやビデオカメラを用いた画像の撮影,映像の撮影は非常に容易なものとなった.現在では様々な企業や,大学,個人が大容量のストレージを持ち,大量のデジタル映像コンテンツ(ニュース,スポーツ,教育ビデオ,広告,ホームビデオなど)を保有している.映像技術の急速な発展により,このような大量の映像のデジタル保存が可能になった.しかしその結果,ビデオの再生,検索には非常に多大な時間が必要とされる状況が生じており,効率的な映像の取り扱いのために映像の要約や編集のための手法が強く望まれている.

本論文では,ショット内容に基づいた適応的なサンプリングアプローチについて提案する

本論文内容は大きく2つの点にまとめられる.

1)適応的なサンプリングによる要約手法2)ユーザのフィードバックによる 要約の改善

以下論文内容の概略を記す.まず、本論文では、映像要約を目的としたショットに基づいた適応的なサンプリングアプローチを提案する。本手法では,あるショットを代表するフレーム(Rフレーム)のグループを表すことにより映像要約を実現する. 本アルゴリズムはオリジナルビデオに現れる各ショットからRフレームを取得している.従来法では,最初のフレームまたは固定されたN長のフレーム群がRフレームとして抽出されていた.しかし,本論文で提案するアルゴリズムでは,それぞれのショットの中で異なる数のフレームをRフレームとして抽出する.具体的には,フレームの非類似度が高いショットのフレームを抽出している.

抽出するRフレームの数はショットの長さとショットの動き情報により決定する.

ショット境界はシティブロックアルゴリズムを用いて隣接する2つのフレーム間の距離を求めることによって決定する.シティブロックアルゴリズムによって求めた距離が閾値より大きければショット境界とする.ショット内の動き情報は,MPEGビデオであればMPEGの動き情報を利用し,たとえばAVIビデオであればブロックマッチングアルゴリズムによって求める.通常,ショット長が長いほどその区間に含まれる情報量は多くなるので,その分要約映像に含まれるキーフレームの数が多い方が自然である.しかし,ショット長が長いにもかかわらず含まれる動き情報が少ないショットから得られるキーフレームは類似した変化の乏しいフレームを多く抽出してしまう. 言い換えれば,全体の平均よりも多い動き情報を持つショットはより変化の激しいシーンを含んでいると考えられる.従って,変化の激しいシーンからより多くのキーフレームが抽出されるべきである.このように抽出されたRフレームからスムースパラメータを用いて要約映像を滑らかに再構成する.

実験において,ホームビデオを異なる長さに要約を行った.評価はその要約圧縮率とユーザによる明快性,簡潔性,一致性の3つの観点から行った.明快性は映像内容の理解のしやすさ,簡潔性は要約映像の中に元の映像の情報がどれほど反映されているかを表し,一致性は要約率の変化による変化の少なさを表す.簡潔性は圧縮率が低ければ高くなり,明快性は低くなる.また,映像中にイベントがほとんど含まれていなければ一致性は圧縮率に関係なくほぼ一定である.ここでいうイベントとは映像に含まれる場所の変化による画像全体の変化のことを言う.たとえば,屋外から地下鉄に乗りまた屋外にでるといった映像のほうが,同じ部屋の中での映像よりもイベントが豊富であると定義する.このことにより,一致性の値はイベントが少なければ,圧縮率が高い場合でも低い場合でも要約映像に含まれる画像の変化が乏しいためほぼ一定の値となる.逆にいえば,イベントが豊富な映像では圧縮率が高いときと低いときには大きな差が生じることになる.

要約された映像の内容では,できるだけ多くのショットから情報を得るための制御が必要である.本アルゴリズムではユーザがショット数を制御可能であり,同一の要約時間であっても,ショット数が多い場合,ショット数が少なくRフレームが多い場合を制御できる.

比較実験として,均一的なサンプリング手法及び適応的なサンプリング手法であるRシーケンスと本手法との比較を行った.実験よりショットに基づく本手法の方が,適切にショットからサンプリングされていることが確認できた.

次に論文の後半であるユーザのフィードバックに関して述べる.通常,作成された要約映像はある条件を満たした最適な映像であるが,本手法ではユーザに結果のフィードバックを可能とすることで,よりユーザの望む要約映像の作成を可能にする.本手法では,サポートベクタマシン(SVM)を利用することでその目的を実現している.従来の検索フィードバックはユーザが好みの重みを手動で入力する必要があるが,適切な値の入力は非常に困難である.従って特別な好みの重みを指定するよりも,好きであるか,嫌いであるかを与える方が適切であろうと考えられる.提案手法では,ユーザはポジティブなフィードバックだけでなく,ネガティブなフィードバックも与えることが出来る.適切な画像に対する新しい好みに関する重みはSVMによって与えられる.

本アルゴリズムでは、まず抽出されたRフレームのグループを正または負と分類され,これらの結果はトレーニングデータとして使用される.SVMはオリジナル映像を2クラス(ポジティブとネガティブ)に分類するために用いる.分類されたデータはフレームと超平面の間の距離も割り当てられる.分類されたデータからフレームを検索するために,本手法では超平面と検索クエリーとの距離,超平面とポジティブなデータを比較している.検索結果のフレームは超平面と検索クエリーとの距離との差が最も小さいポジティブデータが選ばれる.検索されたフレームはユーザに提示され,ユーザが結果に満足しなければ,再びユーザが満足する結果を得るまでフィードバックを繰り返す.最終的に、検索されたポジティブなフレームのグループは平滑化され要約映像にまとめられる.

SVMにおける実験で,1)高レベル特徴量の類似性(ユーザの好み)2)低レベル特徴量の類似性(色の類似性)の2つのタイプのトレーニングデータが生成される.2つのトレーニングデータを用いた分類結果では検索されたフレームはポジティブな例と類似していた.また,ネガティブなフレームに類似するフレームは結果には含まれなかった.

次に,SVMにおける多項式カーネルとRBF (Radial based function) kernelカーネルとの比較を行う.結果からどちらのカーネルでも同様なポジティブな例を検索することがわかった.しかしながら,RBF カーネルを用いて得られた検索フレームは多項式カーネルから得られた検索フレームより類似度が高い傾向にある.

本論文では,ショットに基づいた適応的なサンプリングアプローチによる映像要約手法を提案した.要約映像はRフレームの組から構成される.各ショットに含まれるRフレームの数はショット長とショット内の動き情報から求められ,要約映像に取り入れられるRフレームは適応的なサンプリングアルゴリズムによって決められる. 要約結果の評価はユーザによって行った.従来のサンプリング手法との比較により,本手法のほうが従来の手法より良好な結果が得られた.また,検索フィードバックを用いた映像要約手法についても提案した.本手法では,学習にサポートベクタマシンを用いた.実験では,2つのトレーニングカーネルについて異なるパラメータで比較,評価を行い,良好な結果を得ることが確認できた.

審査要旨 要旨を表示する

本論文は「Shot-Based Adaptive Sampling Approach to Video Summarization(適応的なサンプリングアプローチによるショットに基づいた映像要約に関する研究)」と題し、英文でかかれており、9章よりなる。ビデオカメラといった映像機器やネットワークが広く行き渡るにつれ、個人が有する映像は飛躍的に増えつつある。膨大な映像データを管理するためには、その映像内容を適切に要約することが必要不可欠であり、本論文では、その要約表示のための画像処理手法についての研究をまとめている。本論文では、映像をショットの長さや動きといった特徴量を利用した適応的なサンプリング手法を提案し、重要と思われるシーンをより密にサンプリングすることによる要約表示の検討を行っている。要約結果に対する主観評価や既存手法との比較を通してその性能評価を行い、さらに、サポートベクタマシンを利用する適合性フィードバックを行うことにより、より個人の好みを反映させたキーフレームの取得を検討している。

第1章は、「Introduction(序論)」であり、映像インデキシングに関するマルチメディア処理についてふれるとともに、本論文で主たる特徴とするホームビデオの特徴について論じ、本論文の背景と目的、および論文の構成について述べている。なお、本提案は、ホームビデオ以外の一般の映像に対しても適用可能である。

第2章は、「Related works on video summarization(ビデオ要約に関する関連研究)」と題し、映像の要約に関する動向をまとめている。ハイライト、キーフレームによる要約など網羅的に現状の動向をまとめている。

第3章は、「Shot-based adaptive sampling approach to video summarization (ショットに基づく適応サンプリングによるホームビデオの要約)」と題し、本論文で構築する自動要約システムの全体にふれ、さらに、要約のための提案についてまとめている。自動的な要約のためには、高次の特徴にあまり入ることなく、低次の特徴を効果的に利用するのが望ましい。このため、本論文では、まず映像のショット分割を行い、各ショット毎にそのショットの重要さを表す特徴量と考えられるショット長とショット内の動き量をもとめ、その2つの特徴量の関数としてショットに対する代表的なフレーム(R−フレーム)の数を求める。最終的に、各ショットに対して、変動量を考慮した適応的なサンプリングを行うことで、必要な数のR−フレームを抽出する。要約映像は、このR−フレームをもとに切り出した映像クリップを接続することにより求めることができる。なお、所望の要約の長さに応じて、R−フレーム数、平滑化のパラメータを変化させ、自動的に対応することができる。この提案手法を、MPEG−7のテストシーケンスを含む複数の実映像に適用している。

第4章は、「Evaluation by users(ユーザ評価)」と題する。前章にて、論じた要約手法の主観評価を行っている。明瞭度、簡潔性、一致性の観点から異なる長さの要約映像を5段階で9人の評価者によって評価した。実験に取り上げた2つの映像では、15%程度での要約において、3つの指標のバランスがもっとも高くとれることが確認された。また、自動生成された要約に対してのコメントもまとめられている。

第5章は、「The improvement of shot-based adaptive sampling approach(適応的サンプリングアプローチの改善)」と題し、4章で論じた要約手法に対する改善を論じている。ショットに対してのR−フレーム数の算出への改善を施した。その改善により、より多くのショットからR−フレームを抽出できるようになる。改良前の結果と比較して、映像全体をよりよく表現する要約の生成が可能となった。

第6章は、「Comparison between shot-based adaptive sampling and other conventional sampling algorithm(ショットに基づく適応的サンプリング手法と従来のサンプリング手法との比較)」と題する。本論文で提案するショットの特徴量に基づきR−フレームを抽出する手法と従来からの代表的なフレーム抽出法との比較を行った。従来法としては、等間隔で映像からフレームを取り出す均一サンプリング、及びフレーム間の動きに基づきR−フレームを抽出するR−シーケンス法を取り上げている。ショット単位で見てみると、従来手法はいずれも、抽出されるフレームが著しく偏ってしまう。両者と比較して、提案手法は、偏りを十分に抑え、適度にショット毎にR−フレームの密度を変えることができたことが確認された。

第7章は、「User relevance feedback(ユーザによる適合性フィードバック)」と題する。抽出されたR−フレームに対して、ユーザが評価を与えることで、よりユーザの好みに合わせたR−フレームの抽出を行える可能性がある。本研究では、抽出されたR−フレームに対して、ポジティブな評価、ネガティブな評価を入力し、それをトレーニングデータとして学習したサポートベクターマシン(SVM)を用いた。SVMにより、さらに、原データから候補となるキーフレームを抽出することができる。このフィードバックを繰り返すことで、最終的なR−フレームを決定し、要約映像を得ることができる。

第8章は、「結論」であり本論文の成果をまとめている。

以上これを要するに、本論文では、膨大な映像データの要約手法として、ショット特徴量を反映した適応的サンプリング手法を提案し、その評価、改良について論じており、従来より示されているサンプリング手法に比べて優れたサンプリング手法であることを検証している。また、よりユーザの嗜好を反映するための適合性フィードバックについても論じている。本論文で論じた映像要約手法は、将来の映像コンテンツの利用に寄与することが期待され、電子情報工学上貢献するところが少なくない。よって本論文は博士(工学)の学位論文として合格と認められる。

UTokyo Repositoryリンク