学位論文要旨



No 119111
著者(漢字) 禰寝,義人
著者(英字)
著者(カナ) ネジメ,ヨシト
標題(和) 携帯型話速変換装置の開発と聴覚障害者の音声聴取補助への活用法に関する研究
標題(洋) Development of Portable Speech-Speed Slowing Device and Its Application to Aids for Hearing Impaired People
報告番号 119111
報告番号 甲19111
学位授与日 2004.03.25
学位種別 課程博士
学位種類 博士(工学)
学位記番号 博工第5843号
研究科 工学系研究科
専攻 先端学際工学専攻
論文審査委員 主査: 東京大学 教授 伊福部,達
 東京大学 教授 安田,浩
 東京大学 教授 廣瀬,通孝
 東京大学 教授 堀,浩一
 東京大学 助教授 福島,智
 東京大学 助教授 井野,秀一
内容要旨 要旨を表示する

本論文は、発話者の声質を殆ど変えずに、音声の速度のみを実時間で遅くすることが可能な携帯型の話速変換装置の開発と、聴覚障害者の音声聴取補助に対して話速変換を適用したときの効果について検討した結果を論じた論文である。

まずChapter 1では、本研究の動機、目的、および位置付けに関して論じている。近年の高齢化社会の進展に伴い老人性難聴者の増加が予想される。一般に難聴者は、発話者が「ゆっくり」話せば正しく聞き取ることのできる確率が向上することが経験的に知られている。本研究の第1の目的は、発話者があたかもゆっくり話したかのように、音声の速度だけを実時間で変換する機能を有する携帯型の補聴装置の実現性を示すことにある。本研究の第2に目的は、この話速変換装置を聴覚障害者の音声聴取に適用した場合の有効性を明らかにすることにある。難聴者に対する話速変換の効果に関しては、「加齢などに伴う聴覚抹消より高次の音声言語処理速度の低下を補うための時間的余裕を与えている(仮説1)」という仮説と、「聴覚抹消の劣化により欠落した音声情報を、抹消より高次の音声言語処理機能が推察2して補うための時間的余裕を与えている(仮説)」という仮説が考えられる。もし(仮設2)が真であれば、話速変換は「聴覚末梢のみに機能劣化を持つ」数多くの聴覚障害者にとって有益なものとなる。

次にChapter2では、老人性難聴者に多い感音性難聴の基本特性と従来のディジタル補聴器の研究について論じている。感音性難聴の主な特徴は、「ラウドネスリクルートメント」と呼ばれる聴覚の音量に対するダイナミックレンジの狭小化と、聴覚心理学的に測定される「聴覚フィルタ」の拡幅による周波数分解能の低下である。これまでこれらの聴覚特性の劣化を補償する様々な音声信号処理方式が提案されてきたが、従来のディジタル補聴器は、古くからあるアナログ補聴器の音量増幅機能と周波数特性加工機能をディジタル信号処理で置き換えて実現した程度に止まっていた。一方、音声速度変換に着目した従来研究も存在したが、音質を維持しながら音声速度を変換する信号処理方式の提案に止まっており、補聴器のような携帯型装置として具現化するための研究はなかった。

次にChapter3では、開発した携帯型話速変換装置のハードウエア構成、ディジタル音声処理アルゴリズム、およびユーザインタフェースの設計思想に関して論じている。まずディジタル信号処理アルゴリズムに関しては、従来から知られているMalahの方式を改良することによって、携帯型装置向き信号処理プロセッサ1つで実行可能な軽量な話速変換処理方式を考案した。本方式は入力音声の基本周波数(ピッチ)を計測しながら、そのピッチ波長を単位として音声の母音部分に含まれる繰り返しパターンの数を増やす波形処理方式である。加工波形の例を別紙に示す。これにより入力音声の声の高さを変えることなく、音声の長さを伸ばすことが可能となる。伸長率は音声としての自然性が保てる1.0〜2.0倍の範囲が選択可能である。入力音声を半導体メモリにディジタル録音しながら、同時にこの波形処理をプロセッサで実行することにより、入力された音声を実時間でゆっくりと聞くことが可能となる。開発した製品プロトタイプを別紙に示す。本製品プロトタイプでは、汎用RISCプロセッサに内蔵された各種周辺回路を有効利用することで全体の部品点数を減らし、装置全体の低消費電力化を図ることで、形態型装置として重要な電池寿命を延ばした。また話速変換に伴う時間遅れを取り扱うことが容易になるように、装置上のボタンを押している間だけ話速が変換されるようにするなど、使用者の意思を中心としたユーザインタフェース設計を行った。

次にChapter4では、難聴シミュレーションを用いた話速変換処理の音声聴取に対する効果の評価方法とその結果について論じている。難聴シミュレーションとは、難聴耳の生理学的および実験心理学的な知見を元に、難聴者の聴感上で観測される事象を計算機上のプログラムで模擬し、このプログラムによって加工処理された音声を健聴者に聞かせることによって、難聴者と同じ音声聴取特性を再現する方法である。本研究ではまず難聴シミュレーションの開発を行った。感音性難聴に見られるラウドネスリクルートメント特性と周波数分解能の劣化の両方の特性を同時に実現するシミュレーションプログラムを開発した。周波数分解能の劣化度とダイナミックレンジの劣化度を、周波数帯に応じて細かく変化させるようにシミュレーションプログラムの改良を施した結果、健聴者を用いた心理物理実験により、本難聴シミュレーションは実際の難聴者に近い音声聴取特性を再現できることが示された。次にこの難聴シミュレーションを用いて話速変換の評価を行った。難聴シミュレーションは難聴耳の抹消の特性のみを模擬しているので、抹消の障害だけの難聴者に対する効果を評価することになる。評価の結果、難聴シミュレーションによる模擬難聴者の場合には話速変換の有意な効果は観測できなかった。この結果、前章で述べた話速変換アルゴリズムによる音声処理では、抹消機能のみが劣化した難聴者の音声聴取補助には効果が見込まれないことが推察される。すなわち前述の(仮説2)は成り立たないことが示唆された。

次にChapter5では、実際の聴覚障害者による話速変換の評価結果について論じている。本研究では、高齢難聴者と人工内耳装着者による2つの評価実験を行った。高齢難聴者による評価実験では、3音節単語の聞き取り実験では話速変換の効果は認められなかったが、4単語の文章の聞き取りでは、10名中7名の被験者で話速変換による音声聴取能力の向上が認められた。特にその中の2名の被験者においては話速を遅くするほど誤りが減る顕著な効果が認められた。また各被験者の時間分解能との相関を調べたところ、時間分解能の低い被験者ほど話速変換による音声聴取補助効果が高いことが認められた。このことから、抹消より高次の言語処理機能の劣化がある難聴者に対して、話速変換の効果があることが推察された。次に人工内耳装着者による評価実験では、6名全ての被験者において話速変換による音声聴取補助の効果が認められた。人工内耳装着者は抹消の聴覚機能を全く失っており、音声聴取はより高次の機能に依存して行っている。このため、話速変換はこの高次の音声処理能力を補助する効果があったと推察することが出来る。

最後にChapter6では、本研究の結論と今後の課題について論じている。本研究では、まず携帯型話速変換装置の具体的実現方法を示すと同時、携帯型装置として実現するために必要な軽量な話速変換処理アルゴリズムの提案と、低消費電力化を意識した装置ハードウエアおよびユーザ意思を中心においたユーザインタフェースデザインの提案を行った。次に難聴シミュレーションの開発とそれを用いた話速変換の効果の評価を行い、抹消の聴覚機能だけが劣化した難聴者に対しては話速変換の効果が期待できないことを明らかにした。次に高齢難聴者による話速変換の効果の評価を行い、時間分解能が劣化した難聴者に対して効果があることを示した。さらに人工内耳装着者による評価を行い、人工内耳装着者の音声聴取補助に対して話速変換の効果があることを明らかにした。これらの結果から、話速変換は抹消より高次の音声処理機能を補助していることが示めされた。今後の課題としては、より音質劣化の少なくするための話速変換処理アルゴリズムの改良と、携帯型装置の使い勝手の向上、および失語症訓練などの高次音声処理機能を補助することが必要となるような、話速変換の有効な活用方法の開発が挙げられる。

(a)Original waveform

(b)Expanded waveform [expansion rate=1.5]

審査要旨 要旨を表示する

近年の高齢化社会の進展に伴い老人性難聴者の増加が予想される。一般に難聴者においては、発話者が「ゆっくり」話せば正しく聞き取りやすくなることが経験的に知られている。しかし話速をその場で変換して聞くことができる補聴装置はこれまで製品化されていなかった。本論文は、発話者の声質を殆ど変えずに音声の速度のみを実時間で遅くすることが可能な携帯型の話速変換装置の提案と、聴覚障害者の音声聴取補助に対して話速変換を適用したときの効果について評価している。

本論文は6章から構成されている。まず第1章では、本研究の動機、目的、および位置付けを示している。本研究の第1の目的は、音声の速度だけをリアルタイム変換する機能を有する携帯型補聴装置の実現性を示すことにある。本研究の第2の目的は、話速変換を聴覚障害者の音声聴取に適用した場合の有効性を評価することにある。

次に第2章では研究の背景として、高齢難聴者に多い感音性難聴の基本特性と従来研究について論じている。従来のディジタル補聴器との比較を通じて、話速変換は従来の補聴技術に替わるものではなく、従来の補聴器用の音声処理と組み合わせることによって、これまで以上の補聴効果が得られる可能性があることを論じている。

次に第3章では、提案する携帯型話速変換装置に関して述べている。ここでは信号処理プロセッサ1つで実行可能な軽量な話速変換処理アルゴリズムを提案すると共に、装置の小型化/省電力化に向けた工夫を行い、これらを用いたプロトタイプ開発および製品化を行うことで、本装置が適正なサイズ/コストで実現可能であることを実証している。また話速変換によって生じる時間遅れを取扱うための工夫として、音声の無音区間を加工して時間遅れを低減する方式や、話速変換動作を対話的に制御する新しいユーザインタフェースを提案している。

次に第4章では、難聴シミュレーションを用いた話速変換の効果の評価について論じている。難聴シミュレーションとは、難聴の生理学的および心理学的知見を基に、難聴者の聴感上で観測される事象を計算機上のプログラムで模擬し、このプログラムによって加工処理された音声を健聴者に聞かせることで、難聴者と同じ音声聴取特性を再現する心理物理実験手法である。本章では、まず感音性難聴に多く見られる「ラウドネスリクルートメント」と「周波数分解能の劣化」の2つの特性を同時に模擬するためのシミュレーションの高度化について論じている。これらの両特性を同時に加味することで、様々なタイプの難聴者の音声聴取特性を模擬することが可能となることを、健聴者を用いた実験により裏付けている。次にこの難聴シミュレーションを用いた話速変換の評価方法を示している。難聴シミュレーションが模擬する上記2つの特性は、聴覚系の末梢に分類される「内耳」の特性劣化に起因するので、聴覚末梢系障害を想定したシミュレーションとなる。評価結果から、難聴シミュレーションによる模擬難聴者の場合には話速変換による音声聴取能力の向上は観測されず、聴覚末梢機能だけが劣化した難聴者には話速変換の有効性は期待できないことを示している。

次に第5章では、実際の聴覚障害者による話速変換の評価について論じている。高齢難聴者による評価実験では、単語の聞き取りでは話速変換の効果は認められないものの、文章の聞き取りでは一部の被験者に対して音声聴取能力の大幅な向上が認められることを示している。さらに各被験者の聴覚時間分解能との相関を調べることで、聴覚時間分解能の低い被験者ほど効果が高いことを明らかにしている。次に,聴覚末梢系より高次の聴神経を電気刺激して音声情報を中枢へ送る方式である「人工内耳」に着目し,人工内耳装着者による評価実験を行っている。その結果,全ての被験者に対して効果があることを明らかにし,話速変換は末梢よりも上位に存在する音声言語処理機能を補助している可能性を示している。

最後に第6章では、本研究の結論と今後の課題について論じている。第4章および第5章の結果から、話速変換は一部の高齢難聴者および人工内耳装着者に有効であること、さらには聴覚末梢障害だけの難聴者には効果が期待できず、より高次の音声言語処理機能の補助が必要な難聴者に有効であることが議論されている。また今後の課題として、変換音質の向上や装置の使い勝手の改良、および失語症訓練等の話速変換の新しい活用方法に関する展望が議論されている

以上のように本論文では、携帯型話速変換装置の製品化を通じて、従来にない新しい補聴方式を実用化すると共に、末梢系難聴シミュレーションと高齢難聴者および人工内耳装着者による聞き取り能力を調べ、本方式がどのような難聴に対して有効であるかを明らかにしている。超高齢化社会・高度情報化社会に向けて必須となる情報バリアフリー支援に活かされることが期待されており,その社会的意義を示すことができたという点で大きな功績がある。

よって本論文は博士(工学)の学位請求論文として合格と認められる。

UTokyo Repositoryリンク