学位論文要旨



No 117809
著者(漢字) 吉田,稔
著者(英字)
著者(カナ) ヨシダ,ミノル
標題(和) 表形式と箇条書き形式からの情報抽出手法
標題(洋) A METHOD FOR INFORMATION EXTRACTION FROM TABLES AND LISTS
報告番号 117809
報告番号 甲17809
学位授与日 2003.03.28
学位種別 課程博士
学位種類 博士(理学)
学位記番号 博理第4280号
研究科 理学系研究科
専攻 情報科学専攻
論文審査委員 主査: 東京大学 助教授 森下,真一
 東京大学 教授 萩谷,昌己
 東京大学 教授 今井,浩
 東京大学 教授 高木,利久
 東京大学 教授 高野,明彦
内容要旨 要旨を表示する

 WWW上の表形式と箇条書き形式に対する解析手法について論じる。表と箇条書きは、WWW文書内にしばしば見られる表現形式であり、その解析は、WWW文書の理解には不可欠である。表や箇条書きは、自己紹介における「性別」属性と「女性」属性値の如く、ある物事の属性と属性値による表現と捉えることができる。この属性と属性値が、表あるいは箇条書き内のどの部分に相当するかを決定することが、本論文で扱う主な問題である。

 WWW文書内の単語は、単語そのものの意味の他に、それが表示される位置、文字の大きさ、色といった、様々なレイアウト情報を持つ。特に、表や箇条書きに代表される文章以外の表現に対しては、文章の場合と異なり、一般的な文法規則が存在しないため、レイアウト情報がより重要な役割を果たす。そのため、本論文で提案する解析手法は、レイアウト情報を積極的に利用するという方針に基づいている。

 本論文は主に2つの内容で構成される。すなわち、表の解析と箇条書きの解析、である。表の解析では、表形式内に出現する単語間における属性・属性値関係(オントロジー)を抽出するための手法を提案する。ここでは、単語の位置を手がかりとして、EMアルゴリズムによる語彙情報の推定を行っている。ここで語彙情報とは、ある単語が属性として用いられる確率の値、あるいは、属性値として用いられる確率の値のことを指す。

 箇条書きの解析は、表解析によって得られたオントロジーに基いて行われる。様々なレイアウトを持つ箇条書き形式が、オントロジーの利用により解析できる。箇条書き形式の解析結果は、レイアウト情報の推定にも用いることができる。ここでレイアウト情報とは、WWW文書のソースファイル中における各HTMLタグの出現確率の値を指し、これはEMアルゴリズムにより推定することができる。推定された確率値は、箇条書き形式の解析精度を向上させることにも役立つ。

 これらの手法を、WWW上に存在する実際のページに対して適用し、レイアウト情報が表や箇条書きの解析に於いて有用であることを実験結果を通じて示す。

審査要旨 要旨を表示する

 本論文では、WWW上の表形式と箇条書き形式に対する解析手法について論じている。表と箇条書きは、WWW文書内にしばしば見られる表現形式であり、その解析は、WWW文書の理解には不可欠である。表や箇条書きは、自己紹介における「性別」属性と「女性」属性値の如く、ある物事の属性と属性値による表現と捉えることができる。この属性と属性値が、表あるいは箇条書き内のどの部分に相当するかを決定することが、本論文で扱っている主な問題である。

 WWW文書内の単語は、単語そのものの意味の他に、それが表示される位置、文字の大きさ、色といった、様々なレイアウト情報を持つ。特に、表や箇条書きに代表される文章以外の表現に対しては、文章の場合と異なり、一般的な文法規則が存在しないため、レイアウト情報がより重要な役割を果たす。そのため、本論文で提案する解析手法は、レイアウト情報を積極的に利用するという方針に基づいている。

 本論文は主に2つの内容、すなわち、表の解析と、箇条書きの解析で構成されている。表の解析では、表形式内に出現する単語間における属性・属性値関係(オントロジー)を抽出するための手法を提案している。ここでは、単語の位置を手がかりとして、EMアルゴリズムによる語彙情報の推定を行っている。ここで語彙情報とは、ある単語が属性として用いられる確率の値、あるいは、属性値として用いられる確率の値のことを指す。

 箇条書きの解析は、表解析によって得られたオントロジーに基づいて行われている。様々なレイアウトを持つ箇条書き形式が、オントロジーの利用により解析できる。箇条書き形式の解析結果は、レイアウト情報の推定にも用いることができる。ここでレイアウト情報とは、WWW文書のソースファイル中における各HTMLタグの出現確率の値を指し、これはEMアルゴリズムにより推定することができる。推定された確率値は、箇条書き形式の解析精度を向上させることにも役立つことが報告されている。これらの手法を、WWW上に存在する実際のページに対して適用し、レイアウト情報が表や箇条書きの解析に於いて有用であることが、実験結果を通じて示されている。

 以上のように本論文では、情報科学的に級密な考察を経て、Webのページに現れる表形式から、属性と属性値を抽出し、オントロジーを構成する方法論を新しく提案しており、現実にプログラムとして実現もしている。くわえて、大量の現実のデータに対して,本手法の有効性を検証しており,説得力の高い内容になっている.

 なお本論文の内容は,辻井潤一・鳥澤健太郎を共著者として既に外部のいくつかの学会において公開されているが,論文提出者の寄与が十分であると判断する.

 従って,博士(理学)の学位を授与できるものと認める.

UTokyo Repositoryリンク