学位論文要旨



No 215662
著者(漢字) 相良,毅
著者(英字)
著者(カナ) サガラ,タケシ
標題(和) 非構造・半構造空間情報の高度利用に関する研究
標題(洋)
報告番号 215662
報告番号 乙15662
学位授与日 2003.04.17
学位種別 論文博士
学位種類 博士(工学)
学位記番号 第15662号
研究科 工学系研究科
専攻 電子工学専攻
論文審査委員 主査: 東京大学 教授 坂内,正夫
 東京大学 教授 岡部,篤行
 東京大学 教授 喜連川,優
 東京大学 教授 相田,仁
 東京大学 助教授 瀬崎,薫
内容要旨 要旨を表示する

本論文の背景と概要

カーナビシステムやPC用地図ソフト,携帯電話・PHSでの位置情報サービスなど,個人レベルでの空間情報利用が進んでいる.これらのアプリケーションは,病院やレストラン情報などの空間コンテンツデータの検索や閲覧を主目的としている.しかし,代表的な空間情報システムである地理情報システム(GIS)は,空間解析や高精度な空間情報管理を目的としており,空間コンテンツデータを管理するにはオーバースペックとなっている.その結果,データ作成にコストがかかりすぎることや,個人ユーザには操作が難しいことなどが利用上の障害となっている.

本研究ではこの問題の一解決策として,個人情報やWeb上・タウン情報誌などに豊富に存在する共有コンテンツ情報を空間情報として利用することを考え,そのための要素技術として次の2つの手法を研究し,実利用可能なプログラムを開発した.

住所参照手法:地名や住所という形で記述された場所の情報を座標値に変換する手法

空間情報抽出手法:自然言語で記述された場所記述を含む文(ワープロ文書やWebページ)から住所らしい部分を抽出し、マークアップする手法

これらの手法を利用して,これまで十分に活用されていなかった非構造・半構造化空間情報を容易に検索・閲覧することが可能な新しい空間情報システム,「空間文書管理システム」を開発し,その上に各種アプリケーションを構築して有効性を示した.

日本の住所体系に適した住所参照手法

住所で記述された場所の情報をコンピュータで空間情報として扱うには,経緯度のように数値化された座標値に変換しなければならない.この手法は住所参照手法と呼ばれ,欧米諸国では地理情報システムの基礎的なツールとして広く利用されている.しかし,日本では以下に示す2つの理由により,実用的な手法が確立していなかった.そこで本研究では、日本の住所体系や表記上の特徴を整理し、日本の住所体系に適したアルゴリズムを開発,実装を行った.このアルゴリズムは住所以外の一般的な地名にも適用可能である.

日本の住所体系の複雑性

日本の住所体系は,「不動産登記法」と「住居表示に関する法律」による体系が混在している.また,町村は「郡」に含まれるが市は含まれない,政令による指定都市は区を置くことができるなどの規則も体系を複雑化している.以下にいくつかの住所記述の例を示す.

宮城県仙台市青葉区国分町三丁目7-1(地番,指定都市部)

東京都多摩市関戸六丁目12番地の1(地番,市部)

東京都西多摩郡檜原村467-1(地番、町村部)

大阪府大阪市西区千代崎三丁目中2番1号(住居表示,街区方式)

山形県東根市板垣北通り25号(住居表示,道路方式)

京都府京都市下京区綾小路通烏丸西入(京都市通名)

日本語の特徴に起因する住所記述の曖昧性

日本語では単語間に空白やカンマなどの区切り文字を使わないため,住所を正しく単語に区切る必要がある.また,都道府県名や市町村名の省略などに対応するため,2種類の木構造(地名階層木と地名インデックス)を用いた検索手法を用いた(Fig.1, 2).また,アラビア数字と漢数字の混在や,「1-2-3」のような省略記法にも対応する手法を示した.

ネットワーク分散システム化と自治体の分置廃合への対応

住所参照手法は,地名と座標値の対応表を集中的に整備・維持するコストが高いため,大都市部など一部の地域や,丁目レベルまでの照合に限定されることが多かった.そこで地名照合システムをネットワーク分散サーバ化し,各サーバが地理的に住所の管理を受け持つシステムとした(Fig.3).これにより整備コストの負担を分散すると同時に,検索負荷も分散されるため,詳細な住所も効率的に検索可能になった.

また、日本では自治体の分置廃合により頻繁に住所が変わってしまうが,その度に対応表を作成しなおすのではコストがかかりすぎる.そこで地名階層木を拡張し,新旧の住所をつなぐリンクを作成することで(Fig.4),新旧の住所が混在するデータも変換できる住所参照システムを実装した.

分置廃合の例

名称変更,市制移行西多摩郡羽村町→羽村市

合併保谷市+田無市→西東京市

政令指定都市化による区政施行千葉市稲毛→千葉市稲毛区稲毛

合併に伴う下位地名の名称変更(保谷市)本町→(西東京市)保谷町,(田無市)本町→(西東京市)田無町

空間情報の抽出と半構造化手法

自然言語で記述されたテキスト文書(ワープロ文書,メール,Webページ…)に含まれる地名を自動的に抽出できれば,住所参照手法を利用して,これらの文書を絶対的な位置にリンクすることができる.空間検索・空間演算を適用すれば,場所に依存した人ナビ用の空間コンテンツ情報として利用する,などの高度利用が可能になる.

地名を文章中から抽出するには形態素解析手法が利用できる.理想的には全ての地名が固有名詞として分類されるはずだが,実際には大部分が複合名詞や人名と区別できない.そこで,まず品詞レベルで地名らしい部分文字列を取り出し、住所参照システムに問い合せることで地名であることを確認し、抽出するシステム「芭蕉」を構築した.

空間文書管理システム

位置参照手法と半構造化手法を利用することで,一般文書を場所にリンクすることができる.この手法を,Web や実世界の各種情報源から収集した文書を空間データに変換するために利用すれば,地理情報システムで利用可能な点集合を自動作成するという目的に利用することも可能である.しかし,ナビゲーションのように人間に情報を提供することを目的とした場合,収集した文書そのものが閲覧できた方が(人間にとって)より分かりやすい.そこで,文書をそのままの形で管理・検索・閲覧できる新しい空間情報システム,「空間文書管理システム」を考案した(Fig.5).

地名階層木

地名インデックス

ネットワーク分散システム

分置廃合への対応

インターネット指向空間文書管理システム

審査要旨 要旨を表示する

本論文は「非構造・半構造空間情報の高度利用に関する研究」と題し,住所参照手法と半構造化手法を開発し,これらの手法を用いて空間コンテンツの高次利用を可能にする上での指針を得ることを目的とした情報処理技術に関する研究であり,8章から構成されている.

第1章「序論」では,日常生活における空間コンテンツの重要性をと既存システムの抱える問題を指摘するとともに,本研究の目的および構成を示している.

第2章は「日本の住所体系と住所表記」と題し,住所体系を規定する法律にさかのぼり,住所の正規形を定めている.また,実在する住所を分類し,情報システムで利用可能な形式に体系化している.次に,住所の変化のパターンについても体系化を行い,旧住所から新住所への変換に必要な情報を整理している.また,実際に日常生活で利用される住所表記を収集し,そのパターンを分類して,住所表記の揺れとして定義している.

第3章は「住所参照手法の概要」と題し,まず住所参照を問題として定義するとともに,欧米で一般的に利用されている住所参照手法の概要と日本の住所体系に適用できない原因を示した.次に,日本の住所表記特有の問題である単語切り分けの問題に対応する方法として,最適照合検索を用いた手法と形態素解析を用いた手法の2種類を示してそれぞれ長所と短所をまとめている.

第4章は「階層木構造を用いた住所参照手法」と題し,日本の住所体系に適した効率的な住所参照アルゴリズムとして地名階層木を用いた手法を提案し,理論的な考察と実験により処理コストを示している.また,地名階層木のバランスが検索時間に与える影響を実験によって確認している.

第5章は「実用的な住所参照手法」と題し,前章で示した手法に住所表記の揺れや自治体の分置廃合に伴う住所変更に対応する手法を追加し,より実用的な手法を示している.次に,ハードウェア的な制約と管理効率の制約を除去するための分散システム化を行い,日本全国の号レベルの住所も一度に扱うことが可能な大規模な住所参照手法を実装している.提案手法はWeb上のサービスとして運用された実績があり,実用性・安定性が確認されている.

第6章は「空間情報の自動半構造化手法」と題し,住所参照手法を要素技術として利用することで,Web文書など自然言語で記述された文章から,住所や地名などの場所記述を抽出し,XML形式のタグでマークアップする半構造化手法を示している.自然言語文章から場所記述を抽出する手法として情報検索の分野での先行研究の事例を示し,本研究では表記の揺れに強い住所参照手法と実際の地名辞書を用いることで,既存手法よりも高い位置精度で情報を抽出することができる点に特徴があることを明確にしている.

第7章は「空間文書管理システム」と題し,住所参照手法と半構造化手法を用いて既存の文書管理システムを拡張し,非構造空間情報である空間文書をそのままの形で管理・検索・閲覧・編集できる空間文書管理システムを示している.

第8章は「結論」であり,本論文の成果を要約するとともに今後の課題が示されている.

以上これを要するに,本論文では,住所体系の整理と住所表記の揺れの分類を十分に考慮することにより,実用的な住所参照手法を実現するとともに,Web文書をはじめとする自然言語文章から空間情報を得る手法を示すなど,空間情報処理にとって重要な知見が得られており,電子工学上貢献するところが少なくない.

よって,本論文は博士(工学)の学位請求論文として合格と認められる.

UTokyo Repositoryリンク