No | 217492 | |
著者(漢字) | 狩野,芳伸 | |
著者(英字) | ||
著者(カナ) | カノ,ヨシノブ | |
標題(和) | 自然言語処理のための相互運用性に基づく自動化と深い解析 | |
標題(洋) | RICH ANALYSIS AND AUTOMATION FOR NATURAL LANGUAGE PROCESSING BASED ON INTEROPERABILITY | |
報告番号 | 217492 | |
報告番号 | 乙17492 | |
学位授与日 | 2011.03.14 | |
学位種別 | 論文博士 | |
学位種類 | 博士(情報理工学) | |
学位記番号 | 第17492号 | |
研究科 | ||
専攻 | ||
論文審査委員 | ||
内容要旨 | 自然言語処理技術の発展は近年めざましく、さまざまな分野での応用が期待されている。しかしながら、自然言語処理には分野独特の特徴があり、専門外の一般ユーザや一般開発者にとって必ずしも簡単に利用できるものではないのが現状である。 典型的な自然言語処理タスクにおいて鍵となるのは、比較や評価を含めた解析作業である。科学的探求にせよ、工学的応用にせよ、解析が十分にできなければ目的の達成はおぼつかない。また、フローの作成実行と修正の繰り返しが迅速に行えるかが目的達成までの時間と質に直結する。これは、様々な側面からの互換性、すなわち相互運用性を必要とする。しかし、いずれの既存システムも解析手法と相互運用性の双方において不十分である。本論文では、一貫した相互運用性に基づく設計と深い解析のための手法を融合する方法を提案し、それに基づく統合自然言語処理システムの実装とその応用を詳述する。 相互運用性の本質的な目的は、ユーザ・開発者が自身の自然言語処理タスクをより少ない労力で達成すること、すなわち自動化にある。つまり、汎用性を担保しつつも、自然言語処理におけるユーザビリティを極限に高めることが、我々の目標である。そのために、下位レイヤでは国際標準準拠による汎用性を保ちつつ、上位レイヤにおいて 自然言語処理に特化し必要とされる様々な機能を提供する。同時に、機能を分割したモジュール群として極力独立させることで汎用性を担保する。さらに、各モジュールにおいてOSやプログラミング言語など依存する環境条件を最少にし、可搬性を提供する。これら条件を満たしたモジュール群と言語資源により基盤システムを構築した。この基盤システムでは、ワークフローの生成と実行が、徹底した自動化によりサポートされる。 その上で、解析手法について議論する。自然言語処理における典型的なシステム評価は、人手で作成された正解コーパスとシステムの出力との比較で行われ、その統計スコアが解析の対象となる。しかしながら、このような評価手法は到底満足できるものとはいえない。まず、単にスコアの差分をみるだけではなく、ツール同士の比較や、ツールの組み合わせの比較をすることで、より深い解析ができるはずである。我々はツールの自動組み合わせと比較評価を行う手法を提案し、相互運用性に基づく実装を行った。 統計値と同時に、インスタンスレベルでの詳細な解析を行うことが、品質改善と学術的探求の鍵になるはずである。我々は、機械学習モデル内部の解析を行い、各素性の影響を提示する手法を提案し、それに基づき他のデータも含め統一された視覚化を実装した。 これらすべての機能は、自然言語処理システムU-Compareに統合され公開されている。我々はU-Compareシステムを現実的なタスク群に適用し、その有用性を示した。 | |
審査要旨 | 近年,自然言語処理分野の発展の発展とともに,注釈付きコーパスや自然言語処理ツールなど利用可能な言語資源は飛躍的に増加してきた.自然言語処理の特徴として,同じタスクに対しさまざまなツールが公開されその性能を競っている一方で,適用するテキストのドメインが異なると同じツールでも大きく異なる振る舞いを示し,その変化が予測しがたいということがあげられる.また,サブタスクの組み合わせにより別のタスクを達成できることが多く,ツールの再利用の需要が非常に高いという特徴がある.すなわち,言語資源の組み合わせと,比較や評価といった実行結果の解析が欠かせないといえる.にもかかわらず,既存研究では,言語資源の開発はその組み合わせに不可欠な相互運用性を考慮せず行われることが多く,再利用やツールの比較,ドメインを変えての再評価なども困難であった. 本論文は,自然言語処理における相互運用性について,ユーザ作業の自動化という観点から設計方針を提案して,それを実装し、徹底した相互運用性を実現している.また,相互運用性に基づいて自動組み合わせ比較や視覚化といった汎用の解析機能を提案し,実タスクに適用してその有用性を示している.本論文は「RICH ANALYSIS AND AUTOMATION FOR NATURAL LANGUAGE PROCESSING BASED ON INTEROPERABILITY(自然言語処理のための相互運用性に基づく自動化と深い解析)」と題され,6章からなり英文で書かれている. 本論文の貢献は,大きく次の三点である.第一に,さまざまな側面から相互運用性を考察し,それを保証する設計方針に基づいて、世界最大規模の互換言語資源群を構築して提供している.第二に,言語資源の自動組み合わせ比較と自由に組み込み可能な評価機能,機械学習モデルの解析を含めた結果の視覚化といった解析機能を,相互運用性を損なうことなく設計し実装している.第三に,これらの機能と言語資源群を言語処理システムとして統合し,システムのインストールから言語資源の組み合わせ,比較評価,実行と結果解析までをプログラミングすることなく達成可能にし,高度なユーザビリティを実現している. 実験結果と実ユーザの体験からは,さまざまな分野での応用において,システムが実用的なタスクに適用可能な頑健さをもつと同時に,ユーザの自然言語処理タスク達成を質的にも量的にも飛躍的に効率化できることが明らかになった.自動組み合わせ機能を拡張したシステムアンサンブルの実験においては,BioNLP Shared Task 2009でのF1値評価におけるベストスコアを4ポイント上回る55.11を達成した. 以上のように,本論文は自然言語処理における相互運用性とそれに基づく解析手法について,自動化の観点から設計を提案し,それらを統合した実行環境を実装した上で,その有用性を実験により確認しており,コンピュータ科学上貢献するところが少なくない. よって本論文は博士(情報理工学)の学位請求論文として合格と認められる. | |
UTokyo Repositoryリンク |