学位論文要旨



No 114262
著者(漢字) ローシャン,タプリヤ
著者(英字)
著者(カナ) ローシャン,タプリヤ
標題(和) マルチチャンネル光認識システム
標題(洋) Multi-channel Optical Recognition System
報告番号 114262
報告番号 甲14262
学位授与日 1999.03.29
学位種別 課程博士
学位種類 博士(工学)
学位記番号 博工第4388号
研究科 工学系研究科
専攻 電子工学専攻
論文審査委員 主査: 東京大学 教授 神谷,武志
 東京大学 教授 岡部,洋一
 東京大学 教授 高野,忠
 東京大学 教授 菊池,和朗
 東京大学 助教授 土屋,昌弘
 東京大学 助教授 山下,真司
内容要旨

 パターン認識は、現存する電子計算機では充分に機能することができない人間の脳の最もインテリジェントな機能の一つである。一方、パターン認識システムに使われている高速フーリエ変換(FFT)は画像が大きくなるほど計算速度が減少する事が問題となっている。しかし、光を用いたパターン認識の場合は、計算速度が画像の大きさに依存しないので、画像が大きくかつ複雑なほど有利となる。更に、光技術は画像処理の面で次の3つの機能に対して優位性を有している。その機能とは、(1)パターン生成と並列画像伝送(2)光記録(3)フーリエ光学による情報処理である。これらを有効に組み合わせることで、現代の電子計算機を基礎とする人工知能に大きく寄与することが期待されている。我々は上記の三つの機能を組み合わせた光相関器を構築し、その優位性を実験的に検証した。

 光相関器には2種類ある。それは、Joint Transform Correlator(JTC)1とVanderLugt Correlator(VLC)2である。JTCはアライメントの耐性に優れており、最も普遍的な相関器である。一方、JTCの研究では一チャンネル3-5の研究のみが広く研究されており、並列処理に関しては殆ど検討されていない。ここで、我々はJTCに新規な並列化手法をマルチチャンネル演算として提案した。このマルチチャンネル相関器はレンズアレイを適用した新型のJTCであり、同時に多数の画像の相関が並列で取れるので、並列JTC(PJTC:Parallel JTC)と呼ぶ。一方、これまでのJTC処理において、同時に多数の画像の相関を取れるシステムとしてはマルチオブジェクトJTC6,7がある。この場合は一つのレンズを使うため、多数の周波数成分が重なり、二回必要な光フーリエ変換の一回目の終了直後に電子計算を追加しなければ相関信号が高雑音になることが欠点であった。我々が提案したPJTCでは途中の電子計算は必要とせず、処理速度は電子-光及び光-電子変換デバイスの速度だけに依存している。この点がPJTCとマルチオブジェクトJTCの最も基本的な相違である。

 PJTCの重要な点はレンズアレイの設計である。入力デバイスはピクセル化されているので、回折次数の重なりが無いようにチャンネルの位置が決めなければならない。図1に実験で適用した液晶空間変調器に対応する5-チャンネルのフネレルゾーンプレートアレイ(FZPA:Fresnel Zone Plate Array)を示す。これを適切に配置することにより、回折次数の重なりの影響を抑圧できた。システムの一般的な最適化の指針を導くため、具体的な認識画像を利用してシステムの研究を行った。我々は、(1)デーヴァナガリ文字と(2)顔の2種類を認識画像として選択した。

図1。(FZPA)フレネルゾンプレ-トアレイ

 図2に示すPJTCには、(1)PCから送った未知画像の複数パターン生成と並列画像伝送(2)光記録により参照画像の入力(3)並列フーリエ光学系の3つの光技術を用いている。このシステムの動作原理の説明は以下の通りである。PCから送った未知画像はFZPA1とレンズL1により、複数個の画像を生成する。電気書き込み空間変調器(ESLM)はピクセル化されているので、レンズL2、空間フィルタアレイSF2によって複数画像の高次回折を除去した後、光書き込み空間変調器(OSLM1)に書き込む。光記録用のPhotographic filmに-フレーム毎に5個の参照画像が記録されているので、複数個の全体の未知画像は一つずつの参照画像とFZPA2でフーリエ変換してOSLM2にスペクトルを書き組む。スペクトルのアレイはFZPA3によって逆フーリエ変換され、CCDカメラに相関値が観測される。図3にデーヴァナガリ文字を利用した場合の結果を示す。図3(a)には動作原理のフローチャートが示している。.図3(b)の中央(Ch#3)が自己相関であり、図3(c)に相関ピークを示す。Ch#1,Ch#2とCh#4では相関ピークがほとんど見られず、Ch#5の場合は参照文字と未知の文字とが似通っているためピークが観測される。この実験系で基本文字の相関を取った結果を表1に示す。この結果は従来の64x64 pixelのうち25x25pixelのみを中心から部分的に抽出した後の結果である(図4)。この結果から、相関値110-120の間で自己相関と相互相関との区別できることがわかる。そこで、CCDカメラの代わりに特殊なthresholdデバイスであるフォトディテクタアレイを適用すると自己相関と相互相関が識別できることが分かる。更に、並列性で処理速度を加速するため、チャンネル数を増やし20チャンネルFZPAを用いた予備実験を行った。その結果は、図5(b)に示すように一番左上に自己相関が現れ、その他は相互相関なのでピークが見えない事がわかる。

図2。Photographic参照画像用いたPJTC図3。PJTCによるデーヴァナガリ文字の認識。(a)実験のフローチャート;(b)5-チャンネルPJTCの出力の写真;(c)相関値のIDプロット.図4。デーヴァナガリ文字のピクセルの抽出(n=64 and m=25)表1。PJTCによるピクセルの抽出されたすべて主文字の相関値の結果*:最高相互相関値、**:最低自己相関値図5。(a)20チャンネルFZPA(b)実験結果の例一番左上:自己相関、他:相互相関

 顔認識には参照画像と未知画像をESLMに同時に入れる方式の簡略化PJTCを利用した。このシステムでは直接識別できる特殊なフォトディテクタアレイを適用することにより、256x128 pixelsの顔画像を67msで相関値の識別が可能なことを証明した。処理速度はOSLMの駆動速度で制限されている。このシステムで50人の顔サンプルで100%の認識率が得られた。更に、コンパクトなPJTCシステムを設計し、予備的検討として1チャンネルのみのコンパクトシステムを構築しその評価を行った。100人の顔サンプルに対して100%を認識率を得て、実用レベルに達する可能性を示した。

 以上の結果から、システムの一般的な最適化の指針として、画像のスペクトル幅、デバイスの解像度及び大きさによる並列性の限界を予測する原理を導くことに成功した。この原理によりスペクトル幅と回折による高次の重なりの影響を回避できる。

 最後に、我々のPJTCシステムでは、最高で256x256 pixelの画像を0.5ms以内に相関を計測できる事がわかった。この速度は現存する最高速なFFT-DSP(TMS320M6701)より5倍速い。この速度処理は、文字及び自然画像のリアルタイム認識に十分だと考えられる。

参考文献:1.J.W.Goodman,Introduction to Fourier Optics,Second edition.,Chapter 8(McGraw-Hill Book Co.,1996)2.A.VanderLugt,"Signal detection by complex spatial filtering,"IEEE Trans.Info.Theory IT-10,139-145(1964)3.Y.N.Hsu and H.H.Arsenault,"Optical pattern recognition using the circular harmonic expansion,"Appl.Opt.21,4016-4019(1982)4.R.K.Wang,L.Shang,and Chris R.Chatwin:"Modified fringe-adjusted joint transform correlation to accommodate noise in the input scene,"Appl.Opt.35,286-295(1996)5.Joseph L.Horner,"Single SLM joint transform correlator,"United States Patent#5,040,140(Aug.13,1991)6.Bahram Javidi,Jun Wang and Qing Tang:"Multiple-object binary joint transform correlation using multiple-level threshold crossing,"Appl.Opt.30,4234-4244(1991)7.Q.Zhan and T.Minemoto:"Successful pattern matching with a large number of reference patterns using a joint transform correlator,"Jpn.J.Appl.Phys.Vol.32,3471-3476(1993)
審査要旨

 本論文は"Multi-channel Optical Recognition System"(マルチチャンネル光認識システム)と題し、英文で書かれ、全6章よりなる。

 第1章はIntroduction(序論)であり、レンズによる空間フーリエ変換を用いた光情報処理技術が現代の電子的情報処理を補完する可能性を持つにも関わらず、産業技術として開花していない理由として入力信号に対する柔軟性の欠如、能動素子及びインターフェースでのデータ転送の制約によるスループットの不足を挙げ、解決方策として電子的前処理・後処理と組合わせた光電ハイブリッド処理の有望性を指摘するとともに、スループットの向上に役立つ新しいタイプの並列処理方式を導入し、またその技術をパターン認識に適用する際に好適な対象を選択することが重要であることを述べている。さらに本研究結合変換式光相関器を他の方式と比較するとともに、本論文の構成を要約している。

 第2章はParallel joint transform correlator(並列結合変換相関器)と題し、従来は単一ビームであった結合変換相関(JTC)法について電子回路部分の大きな負担増を伴わずにスループットを格段に向上させる多ビーム化を提案し、その理論的基礎を展開し、また具体的なシステム構成を提示している。多数の参照画像を同時に単一ビームで照射する多オブジェクト光相関法と区別して本提案を並列JTC法(PJTC法)と名づけ、光学系設計の基本要因である空間光変調器の空間周波数帯域、ピクセル構造、未知画像と参照画像の距離などの装置パラメータと未知画像の空間周波数帯域の関係を記述する関係式を導いている。多ビームを同時処理する基本光学素子であるフレネルゾーンプレート列設計の必要な条件としては空間変調素子のピクセル構造を反映した原画像フーリエ変換像の複製パターンが隣接ビームと重ならないことを考慮しなければならないことを指摘し、この要請を満たすゾーンプレート列の幾何学的配置決定手法を具体的に例示している。また未知画像の含む情報量に見合った空間光変調器性能の選択の基準を示すとともに、それらを用いた光学系の具体的な設計結果を記述している。さらに将来の大量参照画像データベースに対応可能な光学的データローディングの一方式を提案している。

 第3章はRecognition of Devanagari script(デヴァナガリ文字の認識)と題し、南アジアでの代表的な表音文字であるデヴァナガリ文字(ヒンドゥー語、ネパール語、古典サンスクリット語など)を選び、5チャンネル並列処理実験を行った結果を述べている。文字の共通的な特徴として上部に水平線が走っているが、これは文字識別には不要な部分であるため、窓枠によって切り取り、中央部の部分画像を用いて識別をする方式を採用し、1文字あたり25X25ピクセルを用いた表示で全ての基本文字要素の識別実験(1444の組合わせ)で100%の識別率を確認している。部分画像の採用により必要画素数が1/6となり、並列度増加によるスループット向上にも有効である。

 第4章はFacial recognition with photoreceiver array(光受信機アレイによる顔画像認識)と題し、PJTC法を顔画像の識別に適用した結果を述べている。本課題は日本女子大学グループとの共同研究として進められてきたが、ここでは特にCMOS識別回路を集積化したフォトダイオードアレイを検出系に用いた場合の設計、構築、測定の結果が記述されている。コロラド大学で開発された識別機能を持つインテリジェントな光受信機アレイの特性評価を行い、その非線形な応答特性が信号対雑音比を向上させる可能性のあることを指摘している。実際に40種類の登録された顔画像と10種類の未登録画像による2000種類の組み合わせを入力し、自己相関と相互相関を調べ、100%の識別率を得た。人為的に雑音を重畳した画像についても調べ、雑音耐性の向上を確認している。実際にスループット速度の支配要因を明らかにするために1チャンネル系について電子系からのデータローディングから信号識別までの所要時間を相互同期系について測定し、1画像あたり67msのスループットを得ている。これは光書込み空間変調器(OSLM)の書き込み、リフレッシュに要する時間が66msであることに対応しており、空間変調器の速度向上が最重要課題であることが明らかにされた。

 第5章はFuture works and extrapolation(今後の課題と予測)と題し、一層の特性向上のための設計と将来予測について述べている。第一に顔画像認識5チャンネルPJTCシステムの概念設計を行い、寸法21cmX17cmX9.5cmの筐体内に収納できるとしている。第二に文字認識システムについて詳細設計を行うとともに20チャンネル用フレネルゾーンプレートを設計試作して予備実験を行い、チャンネル密度上昇にともなってより厳しい機械的精度が求められていることを指摘するとともに、その解決の方向を示唆している。第三に空間変調器の現状技術を定量的に比較し、既発表データの組み合わせにより約60倍の速度向上が見込めることを導いている。第4に多チャンネルの高密度充填を実現するための設計理論的考察を展開している。対象画像の情報量(使用ピクセル数ないし空間周波数帯域幅)が与えられたとき、必要とされる空間変調器のピクセル数および帯域幅への要求が得られるが、隣接チャンネルとの空間的ふくそう、および0次ビームと相関信号ビームの重なりを避けるための条件式から信号劣化を最小化する幾何学配置決定のアルゴリズムを6角対称(ハネカム構造)の配列の場合について具体的に展開し、数値例を提示している。これらを総合することで、顔画像一つ当たり処理時間を1ms以下にすることの実現可能性を主張している。

 第6章はConclusion(結論)であり、得られた成果を要約している。

 以上を要するに、本論文は光フーリエ変換を用いた画像相関器に基づくパターン認識の処理速度向上のために多ビーム並列結合変換相関方式を提案し、具体的に設計・試作・評価を行って、表音文字および顔画像において良好な識別結果が得られることを示すとともに、処理速度についての実験、改良の提案および並列度向上のための設計理論の整備を行い、光情報処理系の顕著な性能向上に向けて有用な知見を提供しており、電子工学に貢献するところが多大である。

 よって本論文は博士(工学)の学位請求論文として合格と認められる。

UTokyo Repositoryリンク