学位論文要旨



No 213987
著者(漢字) 金,淵培
著者(英字)
著者(カナ) キム,ヨンベ
標題(和) 放送サービスにおける自然言語処理に関する研究
標題(洋) A Study on Natural Language Processing in Broadcasting Services
報告番号 213987
報告番号 乙13987
学位授与日 1998.09.17
学位種別 論文博士
学位種類 博士(工学)
学位記番号 第13987号
研究科 工学系研究科
専攻 電気工学専攻
論文審査委員 主査: 東京大学 教授 羽鳥,光俊
 東京大学 教授 今井,秀樹
 東京大学 教授 青山,友紀
 東京大学 教授 原島,博
 東京大学 教授 坂内,正夫
 東京大学 助教授 相澤,清晴
内容要旨

 21世紀には、デジタル技術により放送分野でも従来の放送サービスの枠組みを越える多様なサービスが行なわれると予想される。多チャンネル放送のために必要となる膨大な量の番組コンテンツの制作技術と番組の自動選択機能を持つ受信システムの構築が重要な課題になっている。これらの課題の解決として自然言語処理技術が有効であるにもかかわらず、現在まであまり研究されていない。本論文は、自然言語処理技術を放送技術に適用することで、番組制作の効率化と受信システムの高度化を図るものである。

 番組制作の基盤となる素材映像の管理・検索技術分野では、素材映像の意味的な内容(例えば、誰が、何を、どうする)が重要である。しかし、映像の内容を画像処理を介して直接抽出するのが困難なため、人手による内容記述方法が多く使われている。キーワードを用いる映像内容の記述手法が一般的であるが、この手法は映像の中の被写体同士、あるいは、被写体とその動作、状態との間の意味的な関係が表現できない欠点がある。一方、提案する手法は、映像の内容を記述した自然言語文を解析し、すべての構文情報("助詞、副詞、名詞、動詞など"を含む品詞情報と"主語、目的語、補語など"を示す構文関係)を有効に利用するインデキシング手法である。この手法を用いることで、キーワードでは表現が困難な「AさんがBさんを褒めている」や「猫がねずみを狙っている」などの内容説明文を処理の対象にすることができる。特に、キーワードでは扱い難い助詞(例えば、から、へ、に、を、と、など)を含む表現能力は、被写体の細かい状態や関係を示すことができるので、精度の高い検索が可能である。その上、自然言語文を用いて映像検索を行うので、検索の非専門家である制作現場のユーザーが特別な検索言語を学習する必要がないという特徴を有している。インデクシングは次の3つのプロセスからなる。(1)ビデオセグメンテーション:ビデオ映像を部品化する。編集データや画像処理を用いてある単位(例えばカットまたはもっと細かい単位)に分ける。(2)映像内容の記述:各映像セグメントに対して、適切な内容記述を自然言語で与える。ここでは、映像内容を記述している文章(メモ)を素材映像と対応させる。(3)インデックスの構造化:セグメント単位で入力されたメモを言語処理を介して、コンピュータ処理に適した形式に変換する。まず、メモの中の各文は、構文解析を介して依存構造に変換される。さらに、依存構造は、用言をトップノードにする構造から主被写体(主語または、主題)をトップノードとする構造SDS(Subject-Centered Dependency Structure)に変換される。各文から得られたSDSを順次1つの構文木の構造にマージし、各文とビデオ映像を対応させた時間軸情報を構文木に付加することでインデクシングは終了する。インデックスの一例を図1に示す。このインデックスでは、映像の中の各被写体の動作、状態、または他の被写体との位置や概念関係などの情報を時間軸にマッピングした2次元構造で表現される。

図1 構文情報を用いた映像インデックス

 自然言語によってインデキシングされた映像データは、自然言語をそのまま用いて検索できる利点があり、スクリプト駆動による効率的な番組制作手法の実現を可能にする。スクリプト駆動による番組制作とは、素材映像を収録したビデオテープを手動で操作し、試写を繰り返しながら番組の制作を行う従来の手法と異なって、素材の映像や音声を実際に加工したり切り貼りするものでない。即ち、素材映像には直接触れず、素材の処理方法のみをテキストで記述したスクリプト(台本)を用いて番組の制作を行う手法である。この手法では、スクリプトの内容を変更するだけで番組の内容を容易に変更できる利点がある。しかし、従来のスクリプトで用いられる記述は、機器の操作手順を中心とした編集コマンドであるため、スクリプト上での素材映像の内容を含む番組全体を概観することができない。本手法では、制作者はまず所望の素材映像の内容を自然言語文でスクリプトに記述し、個々の記述文を時間順に並べる。次に、スクリプトを用いて、素材映像のデータベースを検索し、適合する素材映像を切り出し、順に再生することで、制作者は番組の概略を容易に検討することができる。この手法を基に実験システムを構築した。システムは、ユーザーインターフェース部、言語処理部、映像データベース部からなる。図2に検索画面の実例を示す。候補の素材映像が複数ある場合には、この中から最適のものを制作者が選び、決定された映像はスクリプトの中に画像アイコンとして表示される。制作者は、スクリプトの中の文の内容を自由に変更、追加、削除または順番を換えることによって新たな素材映像に簡単にアクセスすることができ、さらにカメラワークなどを条件として加えることで、カメラの操作とリンクされた、より適切な映像を得ることができる。選択された映像は、個別のカットとして、あるいはカットのシーケンスとしての試写が可能である。このような試写機能と、スクリプトによる番組の概念的な検討により、番組の構成を効率的に決めることができる。さらに、曖昧な検索に対応するために、類義語を用いて検索範囲を拡張する手法を提案した。従来の手法(検索精度46.0%、再現率52.4%)に比べて、高い検索精度(77.1%)と再現率(57.1%)を得ることができた。

図2 自然言語スクリプトを用いた検索画面の例

 効率の高い番組制作手法と共に番組コンテンツの迅速な確保手段として、海外との番組交換が考えられる。そのためには、国内で作られた番組を海外向けの番組に変換したり、逆に海外でつくられた番組を国内放送向けの番組に変換する必要がある。機械翻訳システムはこの変換の効率化に寄与するものである。文が長いと構文構造が複雑となり、構文解析精度が落ち、機械翻訳の精度が低下することがよく知られている。この問題を解決するため、長文を複数の短文に自動的に分割するのが有効である。従来の日本語文における文分割の研究として、連用中止を含む接続表現の分類に基づいて接続構造の解析ルールを設定し,分割を行う手法がある。この手法では、接続分類の数は多くないため文脈によって接続の構造が変わる場合には解析ルールの適用がしにくくなる。提案する手法は、「形態素、品詞、文節カテゴリ」の情報を用いて接続構造の記述できる柔軟な多層パターンを使用して分割点の認定を行う。この多層パターンを用いることで、局所パターンを利用する従来の手法と比較して主節と従属節の接続構造に対する、より精度の高い分析結果を基に的確な分割点の認定が可能となる。しかし、分割を行なうと、分割後の文に主語が無くなることがあり、この現象も機械翻訳の精度を悪くする。主語の無くなった文に対しては、主語を補完する必要がある。自動主語補完の技術としては、従来、「差し上げる」や「〜して下さい」のような待遇表現や発語内行為の制約を用いた補完手法が提案されているが、これらの手法は対話文を対象にしており、ニュース文の様な単独に発話される文には適用し難い。そこで、統計的手法によって主語補完を行う手法を考案した。この手法は、全ての体言文節に対して主語になれる確率を計算し、最も適当な主語を選択するのでニュース文を含む広範囲の文に適用できる利点がある。381個の長文を対象に短文分割の実験を行い、87.9%の分割精度と76.1%の主語補完精度を達成することができた。

 デジタル技術による多チャンネル化、放送サービスの高機能かつ多機能化されるとともに、受信システムの機能や操作も複雑になることが予想されている。幅広い視聴者層が容易に番組を楽しむためには、よりインテリジェントな受信機能が必要になる。このような受信機能を実現する技術としてエージェントが注目されている。本論文では、視聴者が自然言語を用いてエージェントとやり取りを行い、所望の番組を視聴できるエージェントに基づく受信システムを提案する。構築した実験システムの各プロセスについて述べると、(1)テーブルを用いて視聴者の要求文の中に現れる表現を正規化する。(2)検索要求文に対してパターンマッチングを行い、マッチングの結果を制御コマンドに変換して実行する。パターン辞書には、「パターンの記述」、「マッチングの優先順位」、「制御コマンドと応答文」に関する情報が記載されている。(3)制御コマンドを実行する際、視聴者のプロファイルを参照し、検索条件として利用する。ユーザープロファイルは、ユーザーの名前、生年月日のような固定情報と映画、音楽などのように好みの更新が必要な動的情報が[フレーム:値]の形式で保存されている。(4)番組データベースを検索し、検索結果が複数の場合は、ユーザの好みに合わせた優先順位を付ける。番組データベースは、各番組に対するインデックスを用いて、検索を行う。このインデックスには、番組の種類(スポーツ、映画など)、検閲情報(成人用など)などの情報が保存され、番組へのアクセスレベルを制御することもできる。(5)検索された各番組を視聴者の好む形態で提示する。実験システムは、自然言語による受信システムとのやり取りを介して、番組自動選択機能を実現し、受信システムの操作性が向上することを実証した。

 以上をまとめると、本論文は自然言語処理技術を素材映像の管理・検索、及び番組制作、番組の字幕制作、番組自動選択機能を持つ受信のための新しい手法について述べた。今後、本研究の概念を生かしながら、様々な放送サービスの実際の応用の上で自然言語処理のより積極的な利用を図っていきたいと考えている。

審査要旨

 本論文は「A study on natural language processing in broadcasting services(放送サービスにおける自然言語処理に関する研究)」と題し、番組制作の効率化と番組受信端末の高機能化を目的として、自然言語処理技術を放送技術に適用することにより映像データを内容に応じて管理・検索する手法とこの手法を適用した番組制作手法を中心に論じている。また、海外からの番組に字幕を付与する場合に問題となる口語特有の長文の解析に対応した手法を提案している。さらに受信系の制御においてはエージェントの概念を導入し、自然言語による視聴者と受信端末間のやり取りの効果を検証したものであり、全6章からなり、英文で記されている。

 第1章は「Introduction(序論)」であり、今後多チャンネル化する放送分野において、膨大な量の番組コンテンツの供給のための番組制作の効率化と、受信端末の高度な番組選択機能が課題になることを示し、これらの課題の解決策として自然言語処理を導入することが有効であるにもかかわらず、今まであまり研究されていなかったことを指摘し、本論文で扱う番組制作にあたり映像の内容をキーワードよりも柔軟に記述できる構文情報を利用する素材映像管理や検索、及び番組制作手法と、字幕翻訳のために構文解析精度を上げる新しい手法、受信系における番組自動選択と自然言語を用いた人間とエージェント間のコミュニケーション手法の重要性を紹介している。

 第2章は「Content-based video indexing method-natural language approach-(自然言語による映像の管理・検索手法)」と題し、構文情報を利用して映像の内容を記述する汎用的な素材映像の管理と検索手法を提案している。映像の管理・検索手法の代表としてキーワードに基づく手法を整理し、その考え方の延長上でキーワードだけでなく構文情報も同時に扱う新たな構文構造を提案している。この手法は、キーワードによる手法の欠点を解決し、素材映像の管理の効率や検索の精度を向上させる。また実験を通じて映像管理と検索の有効性を検証している。

 第3章は「Natural language script based TV program production(自然言語スクリプトによるテレビ番組制作)」と題し、第2章の手法を用いて映像の内容を記述した自然言語スクリプト(台本など)による番組制作手法を提案している。素材映像の内容を日本語文で記述したスクリプトを用いて必要な素材映像を検索し、順に再生することにより、実際の映像を見ながら番組構成を具体的に検討できる制作モデルを展開している。このスクリプトは日本語で映像内容を記述しているため、機器操作の手順を中心とした編集コマンドで記述する従来のスクリプトと比べて可読性が高くなる。さらに、スクリプトを変更することで番組の内容を容易に変更できる利点がある。このモデルに基づく実験システムを構築し、制作効率化への有効性を実証している。

 第4章は「Machine translation of very long sentences for closed-captioned program production(字幕制作のための長文翻訳)」と題し、長い字幕を短文に分割して自動翻訳の精度を上げる手法を提案している。長文は構文解析が難しく、自動翻訳はほとんど失敗する。この手法は、大量の文書データから、長文特有な接続パターンを抽出して、長文を短文に分割する手法で、局所情報だけを利用する従来の分割手法より分割精度が高い。実験によって自動翻訳における短文分割の有効性を定量的に示している。

 第5章は「Agent-based TV broadcasting services(エージェントに基づく放送サービス)」と題し、エージェントの概念を受信系に導入した番組受信モデルを提案している。まず、エージェントの基礎的な概念や特徴と放送分野への応用について詳細に検討し、次に自然言語で視聴者とやり取りする対話型エージェントの構造を提案している。そして、放送におけるエージェントの構築に不可欠である視聴者の個人情報を示すユーザープロファイルのデータ構造と、番組の内容を記述する番組インデックスの構造を提案している。これを用いて番組自動選択機能を実現し、視聴者とエージェント間のやり取りを自然言語で行うことで受信端末の操作性が向上することを実証している。

 第6章は「Conclusion(結論)」で、本研究の成果を要約している。

 以上これを要するに、本論文は、番組制作システムと受信端末に対して、自然言語処理技術を適用し、「素材映像の管理・検索、及び番組制作、番組の字幕制作、番組自動選択」のための新しい手法を考案し、従来の手法に比べ、番組制作の効率と受信端末の操作性が向上することを理論的、実験的に明らかにしたものであり、電子情報工学上貢献するところが少なくない。

 よって本論文は博士(工学)の学位請求論文として合格と認められる。

UTokyo Repositoryリンク