学位論文要旨



No 211861
著者(漢字) 上田,博唯
著者(英字)
著者(カナ) ウエダ,ヒロタダ
標題(和) 対話的マルチメディアハンドリングを指向した画像処理・認識技術の研究
標題(洋)
報告番号 211861
報告番号 乙11861
学位授与日 1994.07.14
学位種別 論文博士
学位種類 博士(工学)
学位記番号 第11861号
研究科 工学系研究科
専攻 電子工学専攻
論文審査委員 主査: 東京大学 教授 高木,幹雄
 東京大学 教授 羽鳥,光俊
 東京大学 教授 原島,博
 東京大学 教授 坂内,正夫
 東京大学 教授 石塚,満
内容要旨

 ワークステーションやパソコンは、近年の性能向上に伴ってマルチメディア対応の幅が拡がり、テキストや図面のみならず時間軸を持つ情報である映像(動画像+音声)までをも扱うことを目指すようになってきている。マルチメディアは大きな有用性をもつと期待されているが、同時に技術的な困難さを増大しているとも言える。ユーザにとって、マルチメディア情報は時間と空間に広がる膨大な量のデータであるため、その全体像を把握して効率よくハンドリング(編集、検索、修正、合成etc.)することが、慣れている人にとっても容易なことではない。一方、システムにとっても、データ量の膨大さや時間軸の扱いの難しさは無視できない問題であり、快適な対話環境を実現するには、まだまだ性能が十分とは言えない面も存在する。このような背景のもと、本論文はマルチメディア・ハンドリングにおけるソフトウェアとハードウェア両面からの技術課題に対する研究成果をまとめたものである。

 第1章では本論文の序章として、本研究の背景およびその位置づけを明かにする。この研究は、ユーザとコンピュータが知的活動環境を創り出すために、どのように協調することができるのかを実証する試みであると言える。具体的には計算機がマルチメディア情報を解析し、その結果を使ってユーザがより高度な判断を下し、ユーザは自身の創造力によって情報を生成・加工するような環境を提供することである。すなわち、ユーザが処理しているマルチメディア情報の構造を、システムはどこまで認識することができるかということ、そして、そのシステム側の認識結果を、どのようにユーザに提示して、ユーザとシステムとの高度な対話環境を実現するかということが、大きな研究課題である。

 第2章では図形のハンドリングを取り上げて、マンマシン対話におけるいくつかの具体的課題と、その解決の方向を明かにする。ここでは会議用のスライド等の図をカラー画面上に創作するための、新しい対話型図形編集装置方式について提案する。図の構成要素である図形を、座標とパラメータの入力に対し、論理値を出力する計算体形として統一的に定義する方式により、少数の基本図形から、その論理接続によって任意の複合図形が定義できるようになる。又、図をパラメータ群から成る図形コマンドの順序を持った集合として定義したので、これを逆方向に探索する処理によって、図形の削除や挿入などが自然な形で実行できる。それ故、人間にとって理解しやすく、またその操作方法も親しみ易い対話的図形ハンドリングが可能となる。

 第3章では動画像を中心とするマルチメディアの自由な編集・作成を行うシステムについて述べる。このアプローチの特徽は画像処理・認識技術を応用してビデオ情報を解析し、その時間・空間構造を一貫性のある形で視覚化することにある。ユーザは、その結果をダイレクトマニビュレーションして対話的に映像素材を編集できる。ここではビデオ情報の解析機能として、カット分割、カメラと被写体の動きの解析、被写体の軌跡や輪郭線の抽出、特定の被写体の存在の判定及びその存在期間の記述等について述べる。そしてこれらの機能により動画アイコンを用いた動画像の構造の視覚化を実現し、ダイレクトマニビュレーションによる時間軸編集方式を提示する。更に、被写体の存在判定結果を用いて、同じ被写体はビデオ全体を通じて自動的にリンクされる。このリンクによるナビゲーションにより、ユーザが生のビデオデータのみならず、ビデオ情報の構造、そしてこれに付加される記述内容を、自由にプラウジングしたり、編集したりできることを示す。最後に実験結果を示し、画像処理・認識技術を応用して、対話的なマルチメディアのハンドリングにかかわるユーザの創造的活動をサポートすることが非常に有効であることを明かにする。

 第4章では、これまでの章で明かとなったパソコンやワークステーションのマルチメディア処理能力の不足をカバーするためのイメージプロセッサの研究について述べる。このイメージプロセッサは前処理から構造解析までの広い画像処理に適用可能とする並列プロセッサである。ここでは信号処理用プロセッサを画像処理用に拡張したLSIをプロセッサユニット(PU)として用いた、マルチプロセッサ構成の超高速汎用イメージプロセッサ(GPIP)の方式を提案し、その試作結果について述べる。この方式は、物理的にはPUを1次元のシフトリング結合とすることによって回路規模を抑えつつ、論理的な2次元の制御を行なうものである。また、4つのシフトリング動作モードを多様なデータ構造を持つ画像を効果的に処理することができる。また、このアーキテクチャはプリント基版1枚に8PUを搭載可能とするようなコンパクトなマルチプロセッサ・アーキテクチャである。また将来的には複数のプロセッサとメモリをワンチップに搭載するLSIに発展する可能性がある。64個のDSP-iを用いて試作したGPIPの総合性能は、2GOPS(Giga Operation Per Second)を達成した。より高性能が必要な場合には、最大で120GOPS(3639PU)の構成が可能である。本システムはこの柔軟さに加え、処理の内容をマイクロプログラムにより自由に記述できるので、従来は、装置規模の制約あるいは機能面での不十分さから、画像処理を導入することができなかった分野にも適用を広げるものと期待される。

 第5章は結言であり、以上の章で示した本研究の成果についてまとめる。

 以上に述べたように、本研究では対話的マルチメディアハンドリングにおける画像認識技術、特に図形や映像を編集するシステムのソフトウェアとハードウェア技術の開発を行った。本研究で開発したソフトウェア技術はプロトタイプによる実用性評価を終え、映像ハンドリングシステムとして(株)日立製作所において製品化を検討中である。またハードウェア技術の一部は画像処理向き信号処理プロセッサLSIとして製品に活かされている。

審査要旨

 本論文は「対話的マルチメディアハンドリングを指向した画像処理・認識技術の研究」と題し,時間と空間に広がる膨大な量のデータであるマルチメディア情報を,その全体像を把握して効率よく編集,検索,修正,合成するための快適な対話環境の実現を目指して行った一連の研究を纒めたもので,5章よりなっている。

 第1章は「序論」で,本研究の背景について述べ,本研究の目的を明らかにすると共に,本論文の構成について述べている。

 第2章「対話型図形編集システム」では,図形を取り上げて,新しい対話型図形編集方式について提案している。即ち,図の構成要素である図形を,座標とパラメータの入力に対して論理値を出力する計算体形として統一的に定義する方式を提案し,少数の基本図形からその論理接続によって任意の複合図形の定義を可能としている。又,図をパラメータ群から成る図形コマンドの順序を持った集合として定義しているので,これを逆方向に探索する処理により,図形の削除や挿入などを自然な形で実行可能とし,人間にとって理解し易く,操作方法も親しみ易い対話的な図形の取扱を実現している。

 第3章「対話型映像編集システム」では,画像処理・認識技術を応用してビデオ情報を解析し,その時間・空間構造を一貫性のある形で視覚化することにより,動画像を中心とするマルチメディアの自由な編集・作成を行うシステムについて述べている。ビデオ情報の解析機能として,カット分割,カメラと被写体の動きの解析,被写体の軌跡や輪郭線の抽出,特定の被写体の存在の判定及びその存在期間の記述等について述べ,これらの機能により動画アイコンを用いた動画像の構造の視覚化を行う時間軸編集方式を提案している。更に,被写体の存在判定結果を用いて,同じ被写体はビデオ全体を通じて自動的にリンクされ,このリンクによるナビゲーションにより,利用者は生のビデオデータのみならず,ビデオ情報の構造,そしてこれに付加される記述内容を,自由にブラウジングし,編集できることを示している。

 又,画像処理・認識技術を応用して,対話的にマルチメディアを取扱う利用者の創造的活動を支援することは,非常に有効であることを,本システムの実験により,明かにしている。

 第4章「画像処理用高速プロセッサ」では,パーソナルコンピュータやワークステーション等のマルチメディア処理能力の不足を補うために開発した画像処理用高速プロセッサについて述べている。信号処理用プロセッサを画像処理用に拡張したLSIをプロセッサユニットとして用いたマルチプロセッサ構成による超高速汎用画像処理プロセッサを提案している。プロセッサユニットを1次元のシフトリング結合とすることによって回路規模を抑えつつ,論理的な2次元の制御を行なうと共に,4つのシフトリング動作モードにより多様なデータ構造を持つ画像を効果的に処理することができ,かつ,処理の内容をマイクロプログラムにより自由に記述できるので,前処理から構造解析までの広い画像処理が可能であり,従来は,装置規模の制約あるいは機能面での不十分さから,画像処理を導入することが出来なかった分野にも適用を広げられることを述べている。

 64個のプロセッサユニットを用いて試作した画像処理プロセッサの総合性能は,2GOPS(Giga Operation Per Second)を達成し,より高性能が必要な場合には,最大で120GOPSの構成が可能であることを述べると共に,開発したLSIは画像処理向き信号処理プロセッサLSIとして製品に活かされていることを紹介している。

 第5章は,「結論」であって本研究の成果を纏めている。

 以上これを要するに,本論文はマルチメディア情報を対話的に処理するために不可欠な画像認識技術,特に図形や映像を編集するシステムのソフトウェアとハードウェア技術の開発を行い,ソフトウェア技術はプロトタイプによる実用性評価を終え,ハードウェア技術の一部は製品化される等,マルチメディア画像処理技術の進展に寄与するところが多大であり,電気・電子工学に貢献するところが少なくない。

 よって本論文は博士(工学)の学位請求論文として合格と認められる。

UTokyo Repositoryリンク http://hdl.handle.net/2261/50893