学位論文要旨



No 122357
著者(漢字) 郭,正佩
著者(英字) KUO,PEI-JENG
著者(カナ) カク,ペイージェン
標題(和) 時空間情報MPEG-7記述スキームを有する個人向けデジタルフォトアーカイブならびに検索技術
標題(洋) Continuous Personal Digital Photograph Archival and Retrieval with Spatial and Temporal Coordinated MPEG-7 Description Scheme
報告番号 122357
報告番号 甲22357
学位授与日 2007.03.22
学位種別 課程博士
学位種類 博士(工学)
学位記番号 博工第6562号
研究科 工学系研究科
専攻 先端学際工学専攻
論文審査委員 主査: 東京大学 講師 青木,輝勝
 東京大学 教授 安田,浩
 東京大学 教授 伊福部,達
 東京大学 教授 堀,浩一
 東京大学 助教授 赤石,美奈
内容要旨 要旨を表示する

 A Picture is worth a 1,000 words. How about 1,000 pictures? Or 1,000,000 pictures?

 While taking photographs with digital cameras has become easier than ever, any user can generate thousands of photographs conveniently and inexpensively. In addition to the widely available digital cameras, the mobile image services firstly introduced in Japan several years ago also soared in popularity. The introduction of compact sized digital cameras together with mobile phone cameras enables consumers to capture digital images almost anytime and anywhere. And as a result, we can envision the proliferation of personal digital photograph collections and image sharing facilitated by the rapidly increasing network bandwidth and the ever-increasing ubiquitous wired and wireless environment.

 Think of the current camera user behavior especially in Japan, one normal consumer can easily take an average of 10 digital images per day. In fact, some of the younger generations even take pictures for each dish of their meals with mobile phone cameras. The result would be a 3,650 photograph collection in a year. Within 10 years, the collection may expand to around 30,000 to 40,000 images. And in 30 years, 100,000 photographs collection can be accumulated easily. While more enthusiastic users might take several thousands of photographs during a single 10 day trip, personal image databases which contain more than 100,000 photographs can be expected in the near future.

 How can we deal with a collection of 100,000 photographs? It is almost impossible for any individual to annotate each photograph manually. However, without constant organizing efforts, how can we allocate something such as: "A photograph of mine that was taken around 5 year's ago with three other friends in a beautiful coffee shop near the bank of Seine River at Paris during my 10 day summer vacation in Europe"?

 Currently, most people only have a collection of digital photographs accumulated within duration of around two to three years due to the short history of digital camera. A two to three year photograph collection might still be manageable with our memory; however, how about ten years later?

 The rapid expansion of personal digital photographs would eventually make it impossible to retrieve in later days without a systematic indexing, categorizing, and browsing interface. We argue that people make more photographs while they visit some new locations or during special events. Hence spatial and temporal attributes of personal digital photographs could contain the most relevant context information. While personal photograph collections have very different characteristics compare with traditional commercial stock image collections, which were normally used for image retrieval researches, organizing, archiving, and retrieving personal photograph collections also require different approaches. We plan to review, evaluate and discuss recent research efforts and directions towards semantic personal photograph database retrieval with special address on spatial and temporal-based approaches.

 Several research efforts start to focus on the importance of location and time aspects of consumer photograph annotations in the past few years. Differ from traditional visual feature based image retrieval; metadata has been utilized in order to achieve higher level data interpretation and semantic retrieval. We proposed a semi-automatic metadata generation methodology a MEPG-7 based annotation architecture, DDDC (Dozen Dimensional Digital Content), which enables spatial and temporal referenced multimedia data annotation with twelve main attributes regarding its semantic representation. The twelve attributes include answers of who, what, when, where, why and how (5W1H) the digital content was produced as well as the respective direction, distance and duration (3D) information.

 Spatial and temporal referenced digital photographs stamped with location information such as GPS data have become possible with the aid of GPS receiving devices, GPS software and increasingly sophisticated digital cameras. We devoted our effort on developing an experiment personal photograph library, which includes more than 80,000 of consumer photographs, metadata annotation based on our proposed MPEG-7 annotation architecture. In annotation process, we utilize our proposed Spatial and Temporal Ontologies (STO) designed based on the general characteristic of personal photograph collections, including special emphasis on photograph patterns induced from personal history, human relations, hobby, taste, and preferences.

 We further elaborate on the evolvement of image retrieval research efforts from traditional stock image database towards personal photograph collections. And detailed explanation on the proposed system structure and future directions towards building up long term personalized image retrieval applications can be found in full thesis.

審査要旨 要旨を表示する

 本論文では、大規模長期間の個人向け写真コレクションに対して半自動でアーカイブ化し、索引付けし、そして管理するための時空間記述方式について論じている。

 第1章では、本研究の動機ならびに背景を述べている。デジタルビデオカメラ、デジタルスチルカメラ、携帯電話カメラのような画像入力機器の急増に伴い、個人用マルチメディアデータベースを構築するユーザは年々増加しており、撮影される写真の数はいとも簡単に管理可能な規模を超えてしまう状況となっている現状について述べている。

 さらに、個人向けデジタル写真コレクションは一般の写真データベース等と比較して特殊の性質を持っており、それゆえ、この個人向けに設計されたメタデータアーキテクチャは、将来の索引付け、閲覧、検索等の目的に対してデータの相互利用を考えるうえで非常に重要な役割を担っていることに言及している。

 第2章では、画像検索における2つの代表的なアプローチ(信号ベース・セマンティックベース)の既存研究を紹介している。また、時間ベース・イベントベース等の近年のエンドユーザ向け写真コレクション構築の動きについても紹介している。このような研究の中には、過去数年にわたってエンドユーザ向け写真の場所・時間等のメタデータの重要性に注目しているものも現れ始めているため、これらについても紹介している。

 第3章では、個人向けデジタル写真コレクションが有する特別な性質について論じ、汎用目的の画像データベースから個人向けデジタル写真データベースまで画像検索のアプローチの進展について論じている。そしてそのような背景のもと、個人向け写真アーカイブの問題と本論文での提案概要について述べる。

 第4章では、DDDC(Dozen Dimensional Digital Content)と呼ぶMPEG-7ベースのメタデータアーキテクチャを提案するとともに、その半自動生成法について提案している。DDDCとは、12個の属性を持つ時空間メタデータであり、セマンティックな表現を可能とするものである。12個の属性とは、その写真を撮ったときの状況を5W1H(who, what, when, where, why, how)で表したものと、被写体の方向、距離、撮影時間である。また、これらの情報から、カメラに付与されたGPS情報は実は被写体位置とは無関係であることに着目し、被写体の位置を算出するための定式化を行っている。

 第5章では、上述したDDDCに対する機械解釈可能な"時空間オントロジー"の構築法を提案している。個人用写真コレクションに関して、画像の内容とそれぞれの時空間情報との間に非常に強い関係があることを示し、また、研究対象を個人向け写真コレクションに特化することにより、ユーザの嗜好に応じてよく使われる場所や時間を用いた場所限定、時間限定のオントロジーを構築する手法について述べている。さらに、この場所オントロジー・時間オントロジーを統合することにより、機械解釈可能な時空間オントロジーを構築することができる。この時空間オントロジーにより、個人向け写真ライブラリに対してセマンティックなメタデータ付与が可能となることを例示している。

 第6章では、半自動メタデータ付与処理がどのように行われるのかについて、個人向け写真データベースの特徴を生かし、あらかじめメタデータ付与された写真を用いて新しい写真のメタデータ付与を行う手法について提案している。ユーザが被写体の選択に個人的な嗜好がある場合、個人向け写真のコレクションの中にはバースト構造が繰り返し生じる傾向がある。この特徴はあらかじめメタデータ付与された写真によって半自動メタデータ付与処理を行う際に類似の場所・時間の特徴に基づいて行うことができることを意味している。

 第7章では、提案システムについて様々な検索パターンが評価され、その結果について論じられている。特に提案システムの利点について詳しく述べている。

 最後の第8章では、本論文のまとめと今後の課題について述べられている。

 以上のように、従来、画像検索技術・画像索引技術が多数存在する一方、その利用が進まない現状において、汎用画像アーカイブ利用時と個人向け画像アーカイブ利用時の性質の違いに着目し、個人向け画像アーカイブの性質を生かした半自動メタデータ付与技術を提案するものであり、その結果は、学術的意義も高く、また、マルチメディアの個人利用が今後ますます進むと予測されることから実用上の意義も極めて高いものである。

 よって本論文は博士(工学)の学位請求論文として合格と認められる。

UTokyo Repositoryリンク