近年、放送のデジタル化や、衛星放送、CATV網など、放送媒体の多チャンネル化にともない、新旧入りまじった多種多様の映像情報が24時間ばらまかれるようになった。しかしながら、放送される情報は孤立しており、とくに生の映像については、他のメディアから参照するのが難しく、ユーザが必要な情報を関係づけながら見つけ出すのが困難である。 本論文は、「ライブ映像の認識と利用を統合するハイパーメディアシステムの研究」と題し、上記の問題を解決しようとするライブ情報を扱うハイパーメディアシステムに関する研究をまとめたものであり、7章から構成されている。 第1章は「序論」であり、本研究の目的と背景、本論文の構成と概要について述べている。 第2章「ライブ情報を扱うハイパーメディアシステム」では、本研究の研究対象であるライブ情報を扱うハイパーメディアシステムについて、構想と概略を述べ、認識利用システムとして位置付ける。従来のハイパーメディアが、専ら蓄積済の情報を扱うのに対し、本論文では、映像認識の技術を用いて、生の映像情報を認識し、動的にリンクするライブハイパーメディアを提案する。そこで問題となるのが、どのように自動認識の不完全さに対処するかということである。ここでは、不完全な認識を許す認識手法、不完全な構造を表すモデル、不完全な認識結果を利用するモデルの3つの研究課題を挙げている。 第3章「関連する研究」では、本研究に関係する従来の研究について概説し、本研究との関係について述べる。まず、ハイパーメディアの分野において、動的なリンクという観点から従来の、研究を概説する。次に、画像検索の分野において、画像の特徴を用いた情報の検索方法に関する研究を概説する。次に、映像解析の分野について、映像のショット分割やシーン解析、映像モデルなど、映像を扱う上での基礎となる研究について述べる。最後に、情報流通形態の観点より、インターネット上の情報サービスや、放送映像に対する情報付加に関する研究を概説する。 第4章「データモデル」では、本研究で扱っている映像情報の獲得と、管理、表現の3つの場面におけるデータモデルについて論じる。ここでは、情報獲得のための映像認識モデルとして、映像シーン記述言語と、状態遷移型認識モデルとの統合モデルを提案する。映像シーン記述言語は、映像中に現れる領域の色や面積、形状、動き、位置関係などを記述するための一連の述語である。状態遷移型モデルは、不完全な認識結果を有効活用できるルールベースの認識モデルである。従来の状態遷移型モデルは、線画像の線分を対象にしていたが、本研究では、映像中の画像領域や、音声、テキスト、ショットやシーンなどの時間を対象にとりこんだ。これにより、時空間を統一モデルによって認識することが可能となる。認識モデルの構成方法として、カーネル、基本モデル、応用モデル、認識結果をis-a関係で結ぶ、オブジェクト指向の構成を提案する。これにより、認識モデルの部品化が可能となり、モデルの再利用性が向上する。利用モデルとしても、オブジェクト指向モデルを用い、不完全な認識結果に対しては、デフォルトの操作が可能になるようにする。とくに、映像を媒介とした人対人の通信に役立てることを考え、映像に対する問い合わせを処理するための手段を、認識結果に割り当てることを提案する。付加された情報の配送と質問応答の処理について概説する。認識モデルと利用モデルとを統合管理するモデルには、ハイパーメディアのリンクによるオブジェクトの結合を用いる。認識モデルにおける状態遷移型モデルのグラフ構造と、利用モデルにおける継承関係のグラフ構造の間を、ハイパーリンクによって結びつける。これにより、モデルを柔軟に構成でき、認識の完全さの度合に応じて柔軟に認識結果を扱うことができ、他の情報と関連づけることができるようになる。 第5章「試作システムによる実験」では、ライブ情報を扱うハイパーメディアシステムを試作し、映像情報の獲得と利用について評価した。ここでは、ニュースと、ゴルフ、相撲の3つについて認識モデルを作り、実際のテレビ映像から、ニュースと、ゴルフ、相撲、アニメ、ドラマ、野球、サッカーの7種類の映像を取り込んで照合した。認識モデルごとの認識率を、再現率と適合率の2つの値で評価し、認識モデルの認識率が高いこと、再現率重視か適合率重視かをユーザが選択できることを示した。また、動きという映像特有の特徴を用いることにより、認識率が向上することを示した。また、モデルと照合する頻度によって、番組の種類分けが可能であることを示した。また、モデルの再利用性の高さを示すことによって、オブジェクト指向型のモデル構成の有効性を示した。データの獲得に要する計算時間は、専ら下位レベルの画像処理に要することがわかり、将来ハードウェアによる高速化が期待できることを述べた。利用モデルについては、ビデオスクラップブックによる情報管理と、映像を媒介とした人対人の通信方法を提案し、利用モデルを検証するとともに、ハイパーメディアが、ライブ情報を扱うことによって、新たな利用分野を見出すことができることを示した。 第6章「ハイパーメディアプラットホームGOLS」では、ライブハイパーメディアに適するように開発されたシステムGOLS(Graphical Objective Language System)について概説する。GOLSは様々なクラスライブラリを備えたオブジェクト指向Prologであり、データの認識、管理、表現の3つの段階を効率良く支援するように設計されている。GOLSは、それぞれの段階を、一階述語論理による推論機能、永続性オブジェクト、GUIオブジェクトによるプレゼンテーションの3つの機能により支援する。ライブハイパーメディアの他に、GOLSを用いて開発されたいくつかの応用プログラムを概説し、それらの開発に対してGOLSがいかに役立ったかを評価している。 第7章は「結論」であり、本論文のまとめを行っている。 以上これを要するに、本論文は、ライブ情報を扱うことができるハイパ-メディアの実現に向けて、認識-利用モデルの観点から映像認識モデルを用いた動的リンクの提案、映像認識モデルとして映像シーン記述言語と状態遷移型モデルを統合したモデルの提案、利用モデルとしてオブジェクト指向型モデルの提案、実際のテレビ放送を用いた認識モデルと利用方法の評価、ライブハイパーメディアシステムの実現基盤としてGOLSの開発ど評価を行ったものである。 |