学位論文要旨



No 111890
著者(漢字) 佐藤,隆
著者(英字)
著者(カナ) サトウ,タカシ
標題(和) ライブ映像の認識と利用を統合するハイパーメディアシステムの研究
標題(洋)
報告番号 111890
報告番号 甲11890
学位授与日 1996.03.29
学位種別 課程博士
学位種類 博士(工学)
学位記番号 博工第3688号
研究科 工学系研究科
専攻 情報工学専攻
論文審査委員 主査: 東京大学 教授 坂内,正夫
 東京大学 教授 田中,英彦
 東京大学 教授 井上,博允
 東京大学 教授 武市,正人
 東京大学 助教授 喜連川,優
内容要旨

 近年、放送のデジタル化や、衛星放送、CATV網など、放送媒体の多チャンネル化にともない、新旧入りまじった多種多様の映像情報が24時間ばらまかれるようになった。しかしながら、放送される情報は孤立しており、とくに生の映像については、他のメディアから参照するのが難しく、ユーザが必要な情報を関係づけながら見つけ出すのが困難である。

 本論文は、「ライブ映像の認識と利用を統合するハイパーメディアシステムの研究」と題し、上記の問題を解決しようとするライブ情報を扱うハイパーメディアシステムに関する研究をまとめたものであり、7章から構成されている。

 第1章は「序論」であり、本研究の目的と背景、本論文の構成と概要について述べている。

 第2章「ライブ情報を扱うハイパーメディアシステム」では、本研究の研究対象であるライブ情報を扱うハイパーメディアシステムについて、構想と概略を述べ、認識利用システムとして位置付ける。従来のハイパーメディアが、専ら蓄積済の情報を扱うのに対し、本論文では、映像認識の技術を用いて、生の映像情報を認識し、動的にリンクするライブハイパーメディアを提案する。そこで問題となるのが、どのように自動認識の不完全さに対処するかということである。ここでは、不完全な認識を許す認識手法、不完全な構造を表すモデル、不完全な認識結果を利用するモデルの3つの研究課題を挙げている。

 第3章「関連する研究」では、本研究に関係する従来の研究について概説し、本研究との関係について述べる。まず、ハイパーメディアの分野において、動的なリンクという観点から従来の、研究を概説する。次に、画像検索の分野において、画像の特徴を用いた情報の検索方法に関する研究を概説する。次に、映像解析の分野について、映像のショット分割やシーン解析、映像モデルなど、映像を扱う上での基礎となる研究について述べる。最後に、情報流通形態の観点より、インターネット上の情報サービスや、放送映像に対する情報付加に関する研究を概説する。

 第4章「データモデル」では、本研究で扱っている映像情報の獲得と、管理、表現の3つの場面におけるデータモデルについて論じる。ここでは、情報獲得のための映像認識モデルとして、映像シーン記述言語と、状態遷移型認識モデルとの統合モデルを提案する。映像シーン記述言語は、映像中に現れる領域の色や面積、形状、動き、位置関係などを記述するための一連の述語である。状態遷移型モデルは、不完全な認識結果を有効活用できるルールベースの認識モデルである。従来の状態遷移型モデルは、線画像の線分を対象にしていたが、本研究では、映像中の画像領域や、音声、テキスト、ショットやシーンなどの時間を対象にとりこんだ。これにより、時空間を統一モデルによって認識することが可能となる。認識モデルの構成方法として、カーネル、基本モデル、応用モデル、認識結果をis-a関係で結ぶ、オブジェクト指向の構成を提案する。これにより、認識モデルの部品化が可能となり、モデルの再利用性が向上する。利用モデルとしても、オブジェクト指向モデルを用い、不完全な認識結果に対しては、デフォルトの操作が可能になるようにする。とくに、映像を媒介とした人対人の通信に役立てることを考え、映像に対する問い合わせを処理するための手段を、認識結果に割り当てることを提案する。付加された情報の配送と質問応答の処理について概説する。認識モデルと利用モデルとを統合管理するモデルには、ハイパーメディアのリンクによるオブジェクトの結合を用いる。認識モデルにおける状態遷移型モデルのグラフ構造と、利用モデルにおける継承関係のグラフ構造の間を、ハイパーリンクによって結びつける。これにより、モデルを柔軟に構成でき、認識の完全さの度合に応じて柔軟に認識結果を扱うことができ、他の情報と関連づけることができるようになる。

 第5章「試作システムによる実験」では、ライブ情報を扱うハイパーメディアシステムを試作し、映像情報の獲得と利用について評価した。ここでは、ニュースと、ゴルフ、相撲の3つについて認識モデルを作り、実際のテレビ映像から、ニュースと、ゴルフ、相撲、アニメ、ドラマ、野球、サッカーの7種類の映像を取り込んで照合した。認識モデルごとの認識率を、再現率と適合率の2つの値で評価し、認識モデルの認識率が高いこと、再現率重視か適合率重視かをユーザが選択できることを示した。また、動きという映像特有の特徴を用いることにより、認識率が向上することを示した。また、モデルと照合する頻度によって、番組の種類分けが可能であることを示した。また、モデルの再利用性の高さを示すことによって、オブジェクト指向型のモデル構成の有効性を示した。データの獲得に要する計算時間は、専ら下位レベルの画像処理に要することがわかり、将来ハードウェアによる高速化が期待できることを述べた。利用モデルについては、ビデオスクラップブックによる情報管理と、映像を媒介とした人対人の通信方法を提案し、利用モデルを検証するとともに、ハイパーメディアが、ライブ情報を扱うことによって、新たな利用分野を見出すことができることを示した。

 第6章「ハイパーメディアプラットホームGOLS」では、ライブハイパーメディアに適するように開発されたシステムGOLS(Graphical Objective Language System)について概説する。GOLSは様々なクラスライブラリを備えたオブジェクト指向Prologであり、データの認識、管理、表現の3つの段階を効率良く支援するように設計されている。GOLSは、それぞれの段階を、一階述語論理による推論機能、永続性オブジェクト、GUIオブジェクトによるプレゼンテーションの3つの機能により支援する。ライブハイパーメディアの他に、GOLSを用いて開発されたいくつかの応用プログラムを概説し、それらの開発に対してGOLSがいかに役立ったかを評価している。

 第7章は「結論」であり、本論文のまとめを行っている。

 以上これを要するに、本論文は、ライブ情報を扱うことができるハイパ-メディアの実現に向けて、認識-利用モデルの観点から映像認識モデルを用いた動的リンクの提案、映像認識モデルとして映像シーン記述言語と状態遷移型モデルを統合したモデルの提案、利用モデルとしてオブジェクト指向型モデルの提案、実際のテレビ放送を用いた認識モデルと利用方法の評価、ライブハイパーメディアシステムの実現基盤としてGOLSの開発ど評価を行ったものである。

審査要旨

 本論文は、「ライブ映像の認識と利用を統合するハイパーメディアシステムの研究」と題し、多チャンネル化が進展する放送映像とコンピュータシステムを高度に結合することを目指したハイパーメディアシステムに関する研究をまとめたものであり、7章から構成されている。

 第1章は「序論」であり、本研究の目的と背景、本論文の構成と概要について述べている。

 第2章「ライブ情報を扱うハイパーメディアシステム」では、本研究の研究対象である放送などのライブ情報を扱うことのできるハイパーメディアシステムについて、構想と概略を述べている。従来のハイパーメディアが、専ら蓄積済の情報を扱うのに対し、本論文では、映像認識の技術を用いて、生の映像情報を認識し、動的にリンクするライブハイパーメディアを提案している。そのための課題として不完全な認識を許す認識手法、不完全な構造の表現方式及び不完全な認識結果を利用する方式の3つを挙げている。

 第3章「関連する研究」では、本研究に関係するハイパーメディアやインターネット上の情報サービス、放送映像に対する情報付加方式などについての従来の研究を概説し、本研究との関係について述べている。

 第4章「データモデル」では、本研究で扱っている映像情報の獲得と、管理、表現の基本方式について論じている。情報獲得のための映像認識方式として、映像シーン記述言語と、状態遷移型認識モデルとの統合方式を提案している。映像シーン記述言語は、映像中に現れる領域の色や面積、形状、動き、位置関係などを記述するための一連の述語である。状態遷移型モデルは、不完全な認識結果を有効活用できるルールベースの認識方式である。認識モデルの構成方法は、カーネル、基本モデル、応用モデル、認識結果をis-a関係で結ぶ、オブジェクト指向の構成を提案している。これにより、認識プロセスの部品化が可能となり、モデルの再利用性が向上する。利用方式にも、オブジェクト指向モデルを用い、不完全な認識結果に対しては、デフォルトの操作が可能になるように工夫されている。

 第5章「試作システムによる実験」では、ライブ情報を扱うハイパーメディアシステムを試作し、映像情報の獲得と利用について性能評価している。実験では、ニュースと、ゴルフ、相撲の3つのシーンについて認識モデルを作り、実際のテレビ映像から、ニュースと、ゴルフ、相撲、アニメ、ドラマ、野球、サッカーの7種類の映像を取り込んで照合している。性能評価は、再現率と適合率の2つの値で行ない、有効性を実証している。また、動きという映像特有の特徴を用いることにより、認識率が更に向上することも示している。更に認識再利用性の高さも実証して、方式の実用性を明らかにしている。

 第6章「ハイパーメディアプラットホームGOLS」では、ライブハイパーメディアの開発環境として開発されたシステムGOLS(Graphical Objective Language System)について述べている。GOLSは様々なクラスライブラリを備えたオブジェクト指向Prologであり、データの認識、管理、表現の3つの段階を効率良く支援するように設計されている。GOLSを用いて開発されたいくつかの応用プログラムを概説し、それらの開発に対してGOLSがいかに役立ったかを評価している。

 第7章は「結論」であり、本論文のまとめを行っている。

 以上これを要するに、本論文は、ディジタル放送の高度化に有効なライブ情報を扱うことができるハイパーメディアの実現に向けて、映像認識モデルを用いた動的リンク、映像シーン記述言語と状態遷移型モデルを統合した方式、オブジェクト指向型の利用方式記述を特徴とする新しいハイパーメディアシステムを提案し、放送映像を用いた評価実験によりその有効性を明らかにしたもので、情報工学の発展に寄与するところが大である。

 よって、本論文は博士(工学)の学位請求論文として合格と認められる。

UTokyo Repositoryリンク