学位論文要旨



No 125077
著者(漢字) 熊谷,潤
著者(英字)
著者(カナ) クマガイ,ジュン
標題(和) 人の移動記述データの構造化入力支援手法と移動記述情報の流通可能性に関する研究
標題(洋) Study on Development of Input Method for Structuring of Human Flow Data and Possibility of Distribution of Human Flow Information
報告番号 125077
報告番号 甲25077
学位授与日 2009.03.23
学位種別 課程博士
学位種類 博士(環境学)
学位記番号 博創域第495号
研究科 新領域創成科学研究科
専攻 社会文化環境学専攻
論文審査委員 主査: 東京大学 教授 柴崎,亮介
 東京大学 教授 浅見,泰司
 東京大学 准教授 瀬崎,薫
 東京大学 准教授 有川,正俊
 東京大学 講師 大森,宣暁
内容要旨 要旨を表示する

1. 背景と目的

私達の周りには,ネット上をはじめデジタルデータが増加し大量のデータから必要な情報を見つけ出すのが困難な状況となっている.原因の1つとして,データ作成時に索引付けや構造化が行われていないことが挙げられる.ここで,コンテンツ単位での構造化やコンテンツ内の情報単位で構造化することにより,情報の検索性や抽出精度の向上が期待される.こうした構造化を行うためには,XML の直書きやテンプレートへの入力が挙げられる.しかし,直書きが困難な点やテンプレートでは自由に記述できない.またコンテンツ作成過程において,「検索」「抽出」「入力」「構造化」にかかる操作コストが高く,操作毎に課題が独立して存在している.本研究では, 1.「検索」「抽出」「入力」「構造化」を入力時に同時に可能な手法,2.様々なデータを構造化できるように様々なアプリケーション上で使用可能な要件を満たす構造化入力支援手法を提案する.

コンテンツ作成時において,既存の構造化情報を組み合わせることにより容易に作成できる.しかし,構造化情報を個人や社内,ポータルサイト内の閉じた環境のみで保持していては十分な再活用ができない状況である.そこで本研究では,1.外部から構造化情報を「収集共有」可能,2.共有されることによる「付加価値」の提供,3.構造化入力支援手法に「配信」可能である点を満たす構造化情報活用環境の仕組み作りを提案する.

本研究で提案する構造化入力支援手法と構造化情報活用環境により,データの構造化が簡単になり,構造化情報が増え構造化情報活用環境に収集蓄積される.蓄積された情報を構造化入力支援手法に配信することによって,構造化入力支援手法による入力がより簡単になる.このように情報活用サイクルが円滑化され,私達の情報の生産性や利便性が向上すると考えられる.

本研究では,以下の観点から対象データを人の移動に関する記述データ(移動記述データ)に設定し実証を行う.1.観光データや旅行記など人の移動に関するデータが散在している点,2.位置情報などと関連付けし視覚化などの付加価値を提供できる点,3.企業や自治体をはじめ,人の移動情報を活用したいというニーズが高い点.

2.移動記述データの構造化

移動記述データの構造化をする上で,様々な移動記述データを分析した結果,「場所」「日時」「イベント(文章中の場所と日時に関連する記述範囲を指定)」の3 つの項目で構造化することを提案する.構造化に必要なフォーマットとして,1.3 つの要素に対応できる,2.見た目を保持し構造化ができる,3.WEB 上で普及している点の3 つの条件を満たすmicroformats のhcalendar を採用した.

3.移動記述データの構造化入力支援手法

本研究では,テキストマイニング手法の課題である抽出精度の向上,XML での構造化入力の困難さの解決を目指し,以下の要件を満たす構造化入力支援手法を提案する.1.「検索」「抽出」「入力」「構造化」が同時に可能.2.様々なアプリケーション上で使用可能.3.「イベント情報」「日時情報」「場所情報」の項目を移動記述情報タグとして入力可能.

文字を入力する際に使用するカナ漢字変換機能,辞書として外部データベースの使用に着目した.これにより,文章入力時に外部データベースから取得した様々な情報(緯度経度情報や正式場所名など)を埋め込んだタグに変換し,移動記述データを文章入力時に構造化が可能になる.構造化入力支援手法をATOK 上にプラグインとして実装した(図3.1).

構造化入力支援システムの入力作業時間や操作性について評価を行うため,定型文(文字数:296 文字,場所タグ数:5,イベントタグ数:10)を使用して,通常入力,構造化入力支援システムによる構造化入力,タグ直書きによる構造化入力の3 種類の入力速度比較実験を行った.構造化入力支援システムを使用した場合,通常入力に86 秒の追加作業を加えるだけで,タグ直書き入力に比べ約9 倍速く文章を構造化することができた(表3.1).

操作方法についてPC初心者でも簡単に習得でき,XMLの知識がない人にとっても簡単にXMLデータを入力することができることを示した(図3.4-3.6)).構造化入力支援システムに対する利用希望度は約70%と高い結果となった(図3.7).

4. 移動記述情報活用環境

移動記述情報を活用するための要件として,「構造化」「収集」「付加価値」「公開制御」「配信」を定義し,これらを満たす移動記述情報活用環境として,おすすめの移動記述情報をモデルスケジュールと定義し,ユーザ間で共有活用できる口コミサイト「モスケ」を作成した.

本研究の移動記述情報の抽出精度の評価を行うため,40人の被験者に旅行記を作成・構造化してもらい,移動記述情報活用環境でタグ解析し抽出結果を確認してもらった.結果として,テキストマイニング手法と比較して,適合率,再現率ともに高い抽出精度を実現できた(表4.1).被験者へのインタビューの結果,利用希望者の割合が過半数を超え,海外旅行頻度の多い被験者,CGM 利用者の利用希望度が高い結果となった.

5. 移動記述情報の活用手法

移動記述情報活用環境上に移動記述情報が共有されることによって得られる参照数や場所間の共起関係情報を活用する手法について述べる.使用データとして,被験者の旅行記40 件,観光雑誌,京都市サイト,ポータルサイト,バスツアー,タクシーツアーの各カテゴリから100 件ずつ移動記述データを構造化し,合計440 件の移動記述情報を使用した.

移動記述情報からの参照数を活かす手法として,人気場所として参照数が多い場所を示した(表5.1).また,参照数の多い順に移動記述情報活用環境内の空間データベースの結果をソートすることにより,構造化入力支援システムの操作性を向上できる(表5.3).

次に利用者の経路選択についての分析や場所情報推薦を行うため,N-gram によって移動記述情報に含まれる隣り合う場所間の共起関係を求めた(表5.3).被験者の旅行記と各メディアを比較するため共起頻度を求めた.参照数の多い人気観光場所を効率的に巡るタクシーやバスツアーの移動記述情報と類似している結果となった(図5.1,図5.2).

また場所毎に共起関係を集計し,各場所に「どこから訪れる人が多く,どこへ行く人が多いのか」を解析した(図5.3,図5.4).その結果を利用し,開始場所(例.清水寺)を指定し共起関係の強い場所を選択していくことによってモデルスケジュール案を示した(図5.5).移動記述情報を共有し解析することにより,参照情報以上に,利用者へ有益な情報として還元可能である.

6. 結論

本論文では,散在する様々な移動記述データから移動記述情報として生産性や利便性を向上させるべく,構造化入力支援手法による移動記述データの構造化入力支援手法,移動記述情報活用環境による移動記述情報活用の仕組みについて述べた.これにより,移動記述情報の活用サイクルが形成され,誰にでも簡単に移動記述情報を活用できる仕組みが実現できたといえる.

今後の展望として,構造化入力支援手法に関しては入力時の利用者の「時間」「場所」「使用環境」に最適な入力候補値を推薦する手法,構造化情報活用環境に関しては個人履歴やコンテクストに基づいた各個人にとって最適な移動記述情報の推薦手法の研究が有効と考えられる.

図3.1 構造化入力支援システム概要

図3.2 構造化後の文章(通常表示)

図3.3 構造化後の文章(HTML 表示)

表3.1. タグ抽出結果

図3.4 操作感

図3.5 入力速度別

図3.6XML 知識レベル別

図3.7 利用希望度

図4.1. 概要図

表4.1 タグ抽出結果

図4.2 ブログからの移動記述情報抽出

表 5.1 参照数(全体)

表 5.2 検索候補結果

表 5.3 共起関係(全体)

図5.1 旅行記との類似度

図5.2 旅行記との類似度

図5.3 X→清水寺

図5.4 清水寺→X

図5.5 清水寺始点のモデルスケジュール

審査要旨 要旨を表示する

ウェブ検索に代表される情報検索は人々の情報収集方法としてなくてはならないものとなっている。しかし、きちんと網羅的、体系的な検索が可能となっている「構造化された情報」は多くない。格納されている大半の情報はほとんど構造化されていないハイパーテキストの形で蓄積されていることから、それらの情報を体系的、網羅的に検索して必要な情報を収集することは容易ではない。特にウェブのように利用者が自発的に作成するCGC(Consumer Generated Contents)の場合には、あらかじめ設定された構造にしたがって利用者が情報を作成することには大きな困難が伴う。すなわち、わざわざ構造化を行って、すなわちタグなどを付けながらテキストを作成することに大きな手間がかかるだけでなく、そもそもあらかじめ設定された構造にしたがって情報を入力することにも無理があるからである。

XML文書に代表されるタグ付き構造化文書は、さまざまなタグを文章に埋め込むことで情報に目印を付ける、すなわち構造化することを可能にし、かつどのようなタグを使うのか比較的大きな自由度を提供するという点で表現能力も大きく、利用者が記述するさまざまな内容の文書の構造化手法としては有望なものの一つである。しかしながらタグを埋め込む作業は一般市民の自発的な文書作成作業にはやはり大きな重荷となっており、そうしたタグ付き文書の蓄積は十分進んでいるとは言えない。タグ付き文書を簡単に構築できる環境が提供できれば、大きなインパクトが期待できる。

本論文はタグ付き文書の作成を比較的容易に行える環境を開発し、その環境を観光旅行など移動しながらの体験記述に適用することで、入力の容易さなどを検証し、同時に構造化された体験記述情報を蓄積し,流通させることでどのような再利用、編集、加工が可能となり、情報に付加価値を与えられるかを実証的に示すことを目的としている。本論文は全7章からなっている。

第1章は序論であり、研究の背景、目的を述べている。第2章は既往の構造化支援手法をレビューした上で、日本語入力で非常に良く用いられているかな漢字変換を利用したタグ付け作業支援方法を提案している。これは入力したひらがなやアルファベットなどの文字列を漢字に変換する際に別途定義された変換辞書を参照することで、かな漢字変換と併せてタグ付けも自動的に行うものであり、日本語入力とタグ付けが同時に行えるという利点がある。さらにこうしてタグ付けにより構造化された文書が蓄積・流通することで、網羅的・体系的な検索、再利用・編集が可能となるだけでなく、蓄積されたタグ付け文書がさらに細分化、部品化されて変換辞書の一部として利用されることでタグ付け作業を一層容易にするといったサイクルが可能となることを示唆している。

第3章は観光行動などの移動行動の記述に上記の手法を適用するために必要なタグなどの構造化ボキャブラリーを開発している。ここでも移動行動の構造化手法をレビューし、併せて必要とされるタグ定義やフォーマット、変換用の辞典の内容・構造について記述している。

第4章は前章で定義されたタグ構造に基づきどのように移動行動の記述を支援するのかをデザインし、システムとして実装している。基本的には移動行動の最小単位としてある場所から次の場所への移動をイベントとして記述し、その中で日時と場所をタグ付けする方法を組み合わせることにより移動行動の全体を記述するとしている。さらに入力のためのユーザインタフェースも実装し、XML経験者と非経験者などのいくつかの属性グループに対して入力実験を行うことで、タグ付け文書の入力作業が入力支援無しのケースに比べて大幅に効率化されること、構造化を行わない場合と比べても入力時間の増加はわずかであることを確認した。

第5章は構造化された移動行動情報を蓄積し、再利用する環境の構築とその利活用に関する実験を行った結果を記述している。具体的には観光情報ロコミサイト「モスケ」を開発し、そこにさまざまな観光行動情報を蓄積することで検索実験、利用者の定性的評価実験などを実施した。

第6章は移動行動情報の高次利用実験であり、移動行動情報ごとの参照数により検索結果の表示順序を変更したり、かな漢字変換時の候補語の表示順序を変更する方法、あるいは共起関係を利用した移動行動情報の連想検索や推薦への応用などの実験を行っている。第7章は結論であり得られた成果をまとめ今後の課題を整理している。

以上まとめると、本論文はかな漢字変換を利用したタグ付き文書の作成支援方法を提案し、移動行動情報をケーススタディとして、作成支援システムとタグ付き文書の蓄積・共有化環境を構築することで、その有効性を検証した。さらに蓄積されたタグ付き文書や、文書作成支援の過程で蓄積されるタグ付き辞書を利用することで、タグ付き文書の作成や検索を一層容易にすることが可能となり、情報の作成から蓄積、利用のサイクルを加速できる可能性があることを示した。この成果はさまざまな情報の構造化に有効であると期待され、特に移動行動情報に関してはその有効性が実データを用いて示されており、空間情報科学の進展に大きな貢献をしている。また本論文の成果はいくつかの共著論文として公表されているが、主要な成果は申請者の寄与によるものである。

したがって、博士(環境学)の学位を授与できると認める。

UTokyo Repositoryリンク