学位論文要旨



No 120524
著者(漢字) 吉永,直樹
著者(英字)
著者(カナ) ヨシナガ,ナオキ
標題(和) 語彙化文法による自然言語処理の実現に向けて : 共同的かつコーパスに基づくアプローチ
標題(洋) Collaborative and Corpus - Driven Approaches towards Lexicalized Grammar-based Natural Language Processing
報告番号 120524
報告番号 甲20524
学位授与日 2005.03.24
学位種別 課程博士
学位種類 博士(情報理工学)
学位記番号 博情第37号
研究科 情報理工学系研究科
専攻 コンピュータ科学専攻
論文審査委員 主査: 医科研 教授 宮野,悟
 東京大学 教授 萩谷,昌己
 東京大学 教授 今井,浩
 東京大学 助教授 黒橋,禎夫
 奈良先端科技大 教授 松本,裕治
内容要旨 要旨を表示する

 情報抽出やQAシステム、機械翻訳といった、知的な言語処理アプリケーションでは、品詞列や係り受けといったShallow Syntaxだけではなく、動詞を述語とした述語項構造のような Deep Syntaxや、さらには語彙意味論や構成的意味論などで表現される意味表現のようなより深い文解釈が必要となる。このようなDeep Syntax や意味表現を文に対して与えることが出来る枠組の中でも、語彙化木接合文法 (LTAG) や主辞駆動句構造文法 (HPSG) に代表される語彙化文法は、語彙を中心として言語の統語的側面だけでなく意味的側面も統合的に扱おうとする枠組であり、上記のような実アプリケーションのためのコアのコンポーネントとして有望視されている。

 本論文では、この語彙化文法を用いた自然言語処理の実現に向けて、二つのアプローチを提案する。具体的には、文法規則などの静的な文法資源や、語彙化文法一般に適用可能な汎的な言語処理技術(例えば構文解析器、曖昧性解消モジュールなど)を語彙化文法の個々の枠組を越えて共同的に開発を進めるための方法論を提案する。一方で動的にタスクの分野に応じて追補的に必要となる辞書資源については、既存の文法に含まれる言語学的な一般化を考慮することで、対象分野からより正確な辞書資源を獲得する手法を提案する。

 語彙化文法は、単語に対する構文的制約と意味的制約を記述した語彙項目を、少量の文法規則で組み合わせることで、文に対し構文構造・意味表現を与える文法枠組である。構文的制約としては、例えば単語の共起に関する構文知識(動詞の下位範疇化要素(目的語・補語など)の品詞情報)などが、意味的制約としては単語の共起に関する意味知識(例えばdrinkが目的語に液体を取るといった選択制約)などがある。このように定義される語彙化文法を実際のアプリケーションの文脈に応用しようとすると、辞書項目のデータ構造・文法記述が複雑・詳細であるため、2) 高効率な構文解析器を実現する必要がある上に、2) 広範かつ詳細な辞書資源を得ることが困難という問題がある。

 本論文の前半では、語彙化文法の枠組の間にまず文法変換アルゴリズムを開発し、その文法変換を個々の枠組の表層的な違いを捨象する手段として用い、語彙化文法に対する汎的な言語処理技術を開発する方法論について述べている。これまで、文法変換は、個々の枠組みの間の辞書リソースを共有することを目的として提案されてきたが、本研究ではこれに加えてさらに、文法変換によりまず、ある文法枠組の文法を他の文法枠組みの強い意味に等価な文法に変換することで、1) 等価な文法を仲立ちとして文法以外の構文解析器、曖昧性解消モジュール、文法開発環境などの言語処理技術が共有できることを示す。さらに我々は、2) それらの技術を等価な文法を用いて比較することで、枠組非依存の一般的な技術(例えば構文解析技術)に対する深い洞察を得ることができ、その洞察に基づき既存の言語処理技術を改善できることを示す。ここで言う等価な文法というのは、二つの文法が、同じ文に対し一対一に変換可能な構文解析結果を返すことを指す。我々は LTAG から HPSG スタイルの文法への文法変換を提案・実装し、文法リソースの共有の観点と、言語処理技術の比較・検討の観点からそれぞれ実験を行った。

 以下でまず、LTAG文法からHPSGスタイルの文法への文法変換について述べる。我々の提案した文法変換は、1) LTAGの語彙項目(木構造,図吉永直樹画像.png左上)をHPSGの語彙項目(素性構造,図吉永直樹画像.png左下)に変換し、2)LTAGの文法規則を模倣するHPSGの文法規則を定義する、という2項目からなる。1 について、LTAG と HPSG とでは文法的制約の局所化、すなわち複数の単語にまたがる文法的制約を、どの単語の語彙項目の文法的制約として記述するかという点で違いがあり、文法の語彙項目同士が一対一に対応しないため単純な変換ができない。そこで我々は、HPSGの語彙項目に一対一に対応する木構造(canonical tree)を定義し、LTAGの語彙項目に記述された文法的制約を、木構造をcanonical treeに変換することで、HPSGの観点から見た文法的制約として捉え直すという方針を採った。こうして得られたcanonical treeは、一つの単語に対するHPSG的観点から見た構文的・意味的制約を含むため、葉ノードの品詞ラベルを語の下位範疇化要素と捕らえスタックに保存することでHPSGの語彙項目に変換できる(図1左)。さらに文法規則をこのスタックに保存された構文的・意味的制約を操作するように定義することで、LTAGの文法規則を模倣する(図1中央・右)。実験として、米ペンシルバニア大学で開発されている大規模LTAG文法を変換し、等価なHPSGスタイルの文法が得られることを確認した。

 我々は次に、語彙化文法という枠で一般的に有効な言語処理技術を構築することを目的として、既存のLTAG文法と文法変換で得られる等価なHPSGスタイルの文法を利用し、LTAGとHPSGという異なる文法枠組で開発された構文解析器の構文解析速度の違いを比較・分析した。このような比較実験は、我々が初めて提案した等価性を保証する文法変換により実現可能となった。実験では、上記の実験で得られた等価なLTAGおよびHPSGスタイルの文法を用い、動的計画法とCFGフィルタリングと呼ばれる構文解析手法についてLTAGとHPSGとで別々に設計された構文解析器を比較した。その結果、HPSGの構文解析器がチャート法(13.5倍)、CFGフィルタリング(30倍〜230倍)共に高速であることを示し、さらに、その実装方法の差異を分析することで、LTAGの構文解析器の改良法についても考察した。これにより、構文解析手法の開発について、文法枠組の違いを越えて共同的にアプローチすることができるようになったと言える。

 本論文の後半では、既存の文法リソースと統合するのに十分な正確さ備えた語彙化文法の文法リソースを、生コーパスから獲得する手法を提案する。我々は文法変換を用いて語彙化文法を実アプリケーションに用いる際の必要となる言語処理技術を共同的に開発する方法論を提示したが、実際に語彙化文法を実アプリケーションに用いる際には、既存の人手で書かれた文法は文法の広範性について問題が残る。近年これに対し、語彙化文法の語彙項目を括弧つきコーパスから自動獲得するという流れと、既存の文法をコーパスから獲得した文法的知識(動詞の下位範疇化フレーム)で増強する流れで研究が進められている。しかしながら、文法の広範性と詳細性はトレードオフの関係にあり、前者の立場で研究を進めると、文法の詳細性、あるいは言語学的な妥当性という点で問題が生じ、後者の立場で研究を進めると、得られる文法的知識と既存の文法の一貫性の点で問題が生じる。また、人手で記述された文法知識、また、有限の注釈つきコーパスから得られた文法知識は、正確ではあるものの、一般的に広範でない事が指摘されている。従って、注釈無しの大量に利用できるコーパスから獲得した文法リソースが、実際の対象ドメインを考えたときの言語処理では必要不可欠である。しかしながら、近年行われた研究では、生コーパスから獲得された確度の低い辞書項目により文法を増強した場合、構文解析器の性能を著しく低下することが報告されている。

 我々は、我々はより信頼性の高い知識を生コーパスから獲得することを目的として、対象文書から既存手法により獲得した構文的知識(動詞の下位範疇化フレーム)を、既存の文法の辞書に含まれる言語学的な一般性の元で検証することで、コーパスから獲得された文法的知識の質を既存の文法と一貫性を保つように改善する手法を提案した。提案手法では、既存の語彙化文法の辞書に含まれる動詞と対象文書から下位範疇化フレームを獲得した動詞に対し、それらの下位範疇化フレームの共起をクラスタリングすることで、誤って獲得された構文的知識を除去し、信頼性の高い構文的知識を獲得することを可能とした。実験として、携帯電話の会話文書から獲得された動詞の構文的知識を、既存のLTAG文法およびHPSG文法の辞書を用いて改善することに成功した。

審査要旨 要旨を表示する

 語彙化文法は、単語に対する構文的制約と意味的制約を記述した語彙項目を、比較的少量の文法規則を用いて組み合わせることで、文に対し構文構造・意味表現を与える文法枠組である。語彙化文法は、構文や意味構造に関する深い解釈を可能とする一方、それを自然言語処理に用いるためには言語処理技術においていくつかの困難があった。本論文は、自然言語処理に語彙化文法を用いるために、個々の語彙化文法の枠組み間で文法資源及び構文解析技術を共同開発するための方法論と語彙化文法のための辞書資源をコーパスから獲得する方式を新たに開発し、その方法論及び方式の有効性を理論的考察と計算機実験を通して実証している。

 本論文は2部からなり、これに序章と結論の章が付けられている。第1部は語彙化文法間の共同開発の方法論に関するもので、このために第1章から4章が当てられている。第2部は、第5章から7章からなり、コーパスからの辞書資源の獲得方式について論じている。

 第1章は、語彙化文法に関する形式的概念についてであり、その主要なものとしてLexicalized Tree Adjoining Grammar (LTAG)とHead-Driven Phrase Structure Grammar (HPSG)について利用可能なリソースも含め解説している。

 第2章は、LTAGの枠組みをHPSGの枠組へ変換するための文法変換アルゴリズムを開発し、強い意味で等価な文法に変換できることを証明している。そして、この文法変換を個々の枠組の表層的な違いを捨象する手段として用い、語彙化文法に対する汎的な言語処理技術を開発する方法論について述べている。これにより、等価な文法を仲介して構文解析器、曖昧性解消モジュール、文法開発環境などの言語処理技術の共有を可能にしている。

 第3章では、LTAG から HPSG スタイルの文法への文法変換を実装し、ペンシルバニア大学で開発された大規模LTAG英語文法をHPSGへ変換する計算機実験を行っている。この結果得られた等価であることが保証されたな文法を用いて、動的計画法とCFGフィルタリングとよばれる構文解析手法についてLTAGとHPSGとで別々に設計された構文解析器を比較・解析している。その結果、構文解析法の開発について、文法枠組の違いを越えて共同的に開発することが可能になることを実証している。第4章は、本論文の研究に関連した研究について言及している。

 第5章は、下位範疇化フレーム(Subcategorization Frame, SCF)を導入し、語彙化文法の中でそれを取り扱う方法について述べている。そして、生コーパスから語彙化文法のためのSCFを自動的に抽出する方法について論じている。

 第6章は、生コーパスから抽出されたノイズを含むSCFのフィルタリングを行うための方法について論じている。その方法は、増強対象になっている辞書中の単語と生コーパスから抽出した単語とを,それらが取るSCFの組み合わせに従ってクラスタリングし,得られた結果を用いてSCF のフィルタリングを行うもので、計算機実験では,大規模語彙化文法の辞書に対し,辞書に含まれる情報を用いることで未知語のより正確なSCFを選別することに成功している。

 第7章は、増強対象となっている辞書が、単語とSCFの共起確率を含む場合に、それらの確率を対象ドメインに対して適切な確率にスムージングする手法を提案している。

 このようにして5章から7章は、既存の文法リソースと統合するために十分な正確さ備えた語彙化文法の文法リソースを、生コーパスから獲得する方法について論じ、その有効性を計算機実験を通して証明している。

 なお、本論文の内容は、辻井潤一、鳥澤健太郎、宮尾祐介、建石由佳氏との共同研究であるが、論文提出者が主体となって分析及び検証を行ってもので、論文提出者の寄与が十分であると判断する。

 よって本論分は博士(情報理工学)の学位申請論文として合格認められる。

UTokyo Repositoryリンク