学位論文要旨



No 214660
著者(漢字) 久光,徹
著者(英字)
著者(カナ) ヒサミツ,トオル
標題(和) 低レベル文脈情報を用いた日本語局所構造解析
標題(洋) Local Structure Analysis of Japanese Using Lower-level Contextual Information
報告番号 214660
報告番号 乙14660
学位授与日 2000.04.10
学位種別 論文博士
学位種類 博士(理学)
学位記番号 第14660号
研究科
専攻
論文審査委員 主査: 東京大学 教授 辻井,潤一
 東京大学 教授 高木,利久
 東京大学 教授 金田,康正
 東京工業大学 助教授 徳永,健伸
 福岡大学 教授 吉村,賢治
内容要旨 要旨を表示する

 インターネット等の普及により,昨今では膨大な量の電子化された文書が流通している.そしてそれらの情報を有効に活用するためには,自然言語処理技術が不可欠になりつつある. 自然言語処理とは自然言語をその意味構造を反映したなんらかの形式的な構造へ変換する処理を指し,以下の諸段階からなる.すなわち,文を構成する各単語の認識(形態素解析),複数の単語からなるまとまった文法単位である「句」の同定とその内部構造の解析(ここでは便宜上句内構造解析と呼ぶ),句と句の間の文法的な関係の同定(構文解析),意味構造への変換(意味解析)である. 本論文では,形態素解析と句内構造解析をあわせて局所構造解析と呼ぶ. 局所構造解析は,殆どすべての自然言語処理における基盤技術であり,昨今では,機械翻訳だけでなく,情報検索,情報抽出,文書要約等においても不可欠の技術となりつつある. そして大量の開いた文書を扱わねばならない状況下では,高精度であるだけでなく,頑健で移植性の高い局所構造解析技術が強く求められている.本論文の目的は,日本語テキストを対象とする局所構造解析においてこれらの要求を満たすための新たな方法を提示し,その有効性を示すことである.

 膠着型言語である日本語は,語自体の屈折変化や語順によらず,内容語に機能語が接続してできる文節と呼ばれる単位により,各語の文法的役割が示される. 日本語の特性から,日本語形態素解析は,「入力文字列を辞書に記載された単語へ分割する処理」,日本語の句内構造解析は,「文節の同定とその内部構造の解析」と定義できる. ここで,語境界が空白で明示的に示される英語と異なり,日本語形態素解析においては語境界の同定と品詞付けを同時に行う必要があるため,最適単語列を求めるための探索空間が大きく,問題はより複雑である. また,語境界があらかじめ与えられないため,未知語の扱いも英語に比べて遥かに困難である. 一方,日本語の句内構造解析においては,文節の境界の同定と名詞句以外の文節の内部構造の解析は容易である(例えば動詞句においては,動詞と屈折接辞間,屈折接辞同士の接続にきわめて強い言語的制約がある)が,名詞を含む文節中では,特に名詞連鎖からなる複合名詞が含まれているときには,複合名詞を構成する名詞間の依存構造の解析が必要であり,これは言語によらない困難な問題である. 従って本論文では,句内構造解析に関しては,最も困難な複合名詞の構造解析に焦点を当てる.

 日本語局所構造解析における手法は,言語的な知識にもとづき人手によりヒューリスティクス(ルールやコスト関数として実現)を構成する手法と,コーパスから自動的にデータを抽出してコスト関数や確率モデル等を構成する手法に大別できる. 日本語形態素解析においては,前者の枠組みで,未知語がほとんど存在しないという条件下で,recall,precision共に95〜97%程度を達成するといわれており,後者の枠組みでも,例えば確率に基づく手法により同程度の精度が実現できるとしている(ただ,歴史的な経緯や,作成に必要なコーパスの量,可読性等の問題から,現時点ではルールに基づく形態素解析システムが多数を占めている). 一方,複合名詞の構造解析においては,ルールに基づく方法では,構成要素となる名詞の構文的・意味的情報を利用することにより,閉じた領域で,平均語基数3.4の複合名詞について95%程度の解析精度が報告されている. コーパスに基づく方法では,学習コーパスから適当な共起条件に基づいて抽出した名詞対を,シソーラス等で概念間の共起データに写像することにより概念間共起として学習し,これを用いて,3語(相当)の未知語を含まない複合名詞の構造解析において,日本語. 英語ともに80%弱の精度を得ている.

 しかし開いた文書に対応するため,従来の手法の枠組み内で,未知の文書への対応も考慮しつつ,より一層の精度向上を目指して解析方法を詳細化しようとすると,大きな困難に遭遇する. ルールに基づく枠組みでは,手法の精緻化に伴い,ルールの作成・維持・管理に必要なコストが指数的に上昇する.コーパスに基づく枠組みでも,モデルの精緻化に伴い学習に必要なデータ量が指数的に増大し,“sparseness problem”が顕著になる. ここで,解析精度の向上のためには,単純なルールや確率モデルだけでなく,語に関するより高次の情報,すなわち,構文的,意味的,語用論的情報を用いるべきだという考え方もあるが,そのような高次の情報を用いようとすると,未知語に対して本質的に脆弱となってしまう.

ここで実際に局所構造解析の誤りを分析すれば,形態素解析にせよ,複合名詞の構造解析にせよ,多くの誤りは,必ずしも高次の情報でなく,周辺の単なる文字列や単語レベルの情報を手掛かりに解消できることがわかる. 従って,従来の方法を精緻化・複雑化する方向とは全く異なり,「周辺の情報」を捉えて解析に利用するという新たな方向が考えられる.本論文では,この考えに基づき,従来の一文解析の枠組み内では取り扱えなかった,曖昧性や未知語処理に必要な「低レベルの文脈情報」を,解析対象の文の境界を越えて獲得し,従来型の手法と組み合わせて利用するパラダイムを提示する.ここで,「低レベル」とは,「対象とする解析の出力結果に含まれるレベルの情報を越えない」ことを意味する. 例えば形態素解析においては,解析前の文字情報や,(誤りも込めて)形態素解析自身が出力した最適単語列,解の曖昧性の情報等が,この範疇に含まれる. また,ここでいう「文脈」とは,対象とする解析において,「低レベルの情報」を参照しうる一定範囲の文集合を指す. 文脈内の低レベル情報を「(低レベル)文脈情報」と呼ぶ.参照する情報の種類と,「文脈」の広さの組み合わせについては様々な可能性があるが,例えば速度を重視する形態素解析では,より局所的かつ単純な情報を,複合名詞の構造解析では,より大域的な情報を参照することが自然であろう. 以下本論文では,それぞれの処理に即して,具体的な組み合わせを検討する.

 本論文の構成は以下のとおりである. まず,文境界を越えた文脈情報を有効に利用できるには,最も基礎となる初期形態素解析において,その解析精度・効率・頑健性が,ある一定の水準を越えていなければならない. これはそれ自体重要なテーマであるため,第2章において,現在多く用いられているルールに基づく形態素解析を念頭におき,解析アルゴリズム,コスト関数の体系的設定方法,辞書の見出しの最適化等について論じる.2章の内容により,簡潔・高精度・頑健であり,解析の曖昧性をコンパクトに保持し,文脈情報の情報を利用することを可能とする形態素解析が実現できる.

 3,4章は本論文の中心となる部分であり,低レベルの文脈情報と,基本となる従来手法を組み合わせる方法を具体的に論じ,その有効性を検証する. 3章では,形態素解析ついて,4章では,複合名詞の構造解析について述べる. 開いた大量の文書の典型的な例として,新聞記事を題材とする.

 3章では,2章で基礎を与えた形態素解析を基盤として,まず最も狭い文脈情報の利用形態である,形態素解析結果の書き換えルールを用いた後処理方法について述べる. 書き換えルールは,日本語に適用するための改良を加えた誤り駆動型の自動学習により獲得する. 後処理の精度を更に向上させるために,書き換えルールに加えて,「窓」と呼ぶ複数の文集合に対する解析結果をプールし,それらを相互に参照することにより,より高度な曖昧性の解消や,未登録語の同定も可能となることを示す.「窓」がすなわち「文脈」であり,参照する情報としては,窓内の各文の解析結果の曖昧性までを含む.これらの後処理により,未知語を比較的多数含む条件下で,recall,precisionともに,2〜3%程度の向上が可能である.

 4章では,漢字で書かれた名詞連鎖による複合名詞を対象とし,複合名詞の構造を規定する少数の基本ルール群とヒューリスティクスに加えて,複合名詞を構成する単語の共起情報を必要に応じて文脈中から獲得することにより,高精度かつ未登録語に対して頑健な構造解析が可能なことを示す. この際,二つの名詞間の共起は,4章で定義するテンプレートに含まれる二つの変数部分に二つの名詞がマッチすることにより定義し,質・量を兼ね備えた共起情報が獲得できることを示す.また,初期形態素解析において未知語の解析に失敗した場合も,テンプレートによる共起情報の獲得中,多くの場合文脈中の表層情報からその未知語自体が同定でき,同定された未知語を新たに共起情報抽出の対象に繰り入れることにより,未知語の解析誤りも修復される. この結果,頑健で移植性に優れた高精度な複合名詞解析が実現できる.精度は,3単語相当で88%を達成し,未知語の存在を考慮すれば,従来手法を大きく上回る.

 5章では,局所構造解析の精度向上のためのもう一つの方法として,オフラインでの未知語獲得について論じる.具体的には,3,4章で示した方法では解析時に同定が困難と判明した,人名,社名等の固有名詞や,略称等を対象とし,単語同定のための少数のルールと,文書全体から得られる簡単な統計量を組み合わせて,新聞紙上に現れる未知語を,recall,precisionが各50%,95%前後で収集できることを示す. ここで,全文書を「文脈」,統計量を「文脈情報」とみなすことができ,この意味で5章は3,4章の延長線上にある.

審査要旨 要旨を表示する

 本論文は6章からなり,第1章では日本語の局所構造解析,および低レベル文脈情報の定義を述べ,低レベルの文脈情報を用いた局所構造解析の提案と,論文全体の構成を述べている.「局所構造解析」とは,形態素解析,及び文節の内部構造の解析までと定義し,「低レベル」とは,「対象とする解析の出力結果に含まれる範囲の情報を越えない」ことと定義し,「文脈」とは,対象とする解析において,低レベルの情報を参照しうる一定範囲の文集合と定義している. 執筆者が提案している方法は,「低レベルの文脈情報」を必要に応じて解析対象の文の周囲の「文脈」から獲得し,これを従来型の手法と組み合わせて解析精度を向上させようとする方法である.従来の枠組みでは,大量の正解データや高度な意味的情報等を用いない限り,局所構造解析の一層の精度向上は困難とされており,頑健性や,正解データ獲得の点で困難に直面していた.

 第2章では,局所構造解析の基礎となる形態素解析について,解析アルゴリズム,コスト関数の設定方法,動詞活用処理の最適化について述べている.解析アルゴリズムは,日本語形態素解析の諸手法を一般的に取り扱うために論文執筆者が提唱した,「接続コスト最小法」と呼ぶ枠組に沿って,N-best解を導出するためのアルゴリズムが述べられており,これを利用して解析の曖昧性を縮約・保持し,文脈情報の情報を利用することを可能としている.また,接続コスト最小法の枠組みを用いたヒューリスティク・コスト関数の体系的な設定方法について論じており,「一般化文節数最小法」の精度を向上させる手法について具体的に述べている.同章ではさらに,動詞の活用を処理するための辞書見出しの最適化についても論じており,音韻論的分析の合理性を保ちつつ,日本語の漢字仮名混じり表記に適合した処理方式を提案し,形態素解析の効率と頑健性を向上できることを示している.

 3章では,2章で述べた形態素解析に基づき,文脈情報の古典的な利用形態の一つである,パターンマッチによる書き換え規則を用いた形態素解析の後処理方法について述べ,「窓」と呼ぶ文集合内で低レベル文脈情報を参照することにより,後処理の精度を一層向上させる方法について述べている. 書き換えルールは,複雑な誤りパターンをもつ日本語形態素解析に適用するために新たに考案した,誤り駆動型の自動学習手法を用いて獲得し,これに加えて,「窓」と呼ぶ複数の文集合(例として1記事を用いる場合が示されている)に対する解析結果をプールし,その中での書き換え結果を参照することにより,書き換え規則だけを用いた場合に比べ,曖昧性の解消や未登録語の同定の能力がより一層向上することを示している.これらの後処理により,未知語を含む条件下で,recall,precisionともに2〜3%程度の向上が可能であることが示されている.

 第4章では,文書走査法と呼ぶ手法による,漢字で書かれた名詞連鎖による複合名詞の,名詞間の係り受け構造の解析方法について述べている. 複合名詞の構造を規定するルールとヒューリスティクスに加え,複合名詞を構成する単語の共起情報を文脈中から獲得することにより,高精度かつ未登録語に対して頑健な構造解析が可能であることを示している.名詞間の共起は,定められたテンプレートの二つの変数部分にマッチすることとして定義し,従来の共起の定義に比べ,獲得される共起情報の質と量が向上することが示されている. また,形態素解析において解析に失敗した未知語を,共起情報の獲得中にテンプレートにより同定し,共起情報抽出の対象に繰り入れることにより,未知語に対しても頑健な複合名詞解析が実現できるとしている. 解析の精度は,3単語相当で88%であり,未知語の存在を考慮すれば,従来手法を20%以上上回ることがしめされており、画期的な結果となっている.

 第5章では,ルールと統計情報を併用した未知語獲得について述べている. 3,4章で示された方法では解析時に同定が困難な,人名,社名等の固有名詞や,略称等を対象とし,単語同定のための少数のルールと,文書全体から得られる簡単な統計量を組み合わせて,新聞紙上に現れる未知語の40%程度を,95%前後の精度で収集できることを示しているおり、今後の言語処理手法の基盤を与えている.

 なお,本論文第2章,第4章は新田義彦氏との共同研究,第3章,第5章は,丹羽芳樹氏との共同研究に基づいているが,論文提出者が主体となって分析,及び検証を行ったもので,論文提出者の寄与が充分であると判断する. したがって,博士(理学)を授与できると認める.

UTokyo Repositoryリンク