学位論文要旨



No 119696
著者(漢字) 京,昭倫
著者(英字)
著者(カナ) キョウ,ショゥリン
標題(和) 画像認識処理のための一次元プロセッサアレイの設計と開発
標題(洋)
報告番号 119696
報告番号 甲19696
学位授与日 2004.09.30
学位種別 課程博士
学位種類 博士(工学)
学位記番号 博工第5901号
研究科 工学系研究科
専攻 精密機械工学専攻
論文審査委員 主査: 東京大学 教授 新井,民夫
 東京大学 教授 木村,文彦
 東京大学 教授 平木,敬
 東京大学 教授 相田,仁
 東京大学 教授 相澤,清晴
 東京大学 助教授 太田,順
内容要旨 要旨を表示する

 大量の画素に対し様々な処理を施し、リアルタイムに処理結果を求める必要がある画像認識応用の実用化には、非常に高速なプロセッサが不可欠である。そのプロセッサ構成の有力な候補として、画像認識処理が持つ高い画素並列性をそのまま生かせる「高並列SIMD型1次元プロセッサアレイ(LPA)」がある。しかし、LPAの性能を引き出すためには専用の並列アルゴリズムを設計する必要があるのに対し、その並列アルゴリズムの設計手法が現状整理されていないため、多種多様に存在する画像認識処理に対するLPA型プロセッサの有効性が明確でない。本論文では、既存の多数の画像処理演算における画素参照定義パタンを分類すると7種類に分けられることに着目し、まずそれぞれの画素参照定義パタンに対応したLPA向け並列化方式を設計する。次に、これらの並列化方式を利用した処理コードが効率よくLPA上で実行されるのに必要なハードウェア構成条件を調査する。そして、実際にそうした条件を満たせるLPAを設計し、かつそのLSI開発を行う。最後に、提案並列化方式を利用した基本画像処理や運転支援向け画像認識応用のプログラムコードが、開発LSI上で効率よく動作することを確認することにより、提案並列化手法および開発LSIの有効性を示す。

 1章では、大量の画素に対し様々な処理を施し、かつリアルタイムに処理結果を出力する必要がある画像認識処理分野における画像認識プロセッサの必要性、また画像認識処理の特徴およびそれによって導かれる画像認識プロセッサに対する1)高速性、2)発熱効率性、3)柔軟性、という3つの要求仕様が存在することについて述べる。次に画像認識処理が持つ高い画素並列性をそのまま生かせる構成を持つLPA型プロセッサが、これらの要求仕様にもっとも適合した既存のプロセッサアーキテクチャであり、また実効性能の高いLPA型画像認識プロセッサの実現に向けた課題は、LPA向け並列アルゴリズムの設計手法の整理と実機LPAに対するその有効性実証、そしてそれらの知見のハードウェア設計へのフィードバックであることについて述べる。

 2章ではLPAの基本構成や、SIMD型実行からの拡張としてのPE自律性の追加付与に基づくLPAの拡張構成について述べる。また、これらのLPAの基本および拡張構成に対応したLPAの基本・拡張動作が簡潔に指定可能であり、かつ既存の最適化コンパイラ技術の流用容易化を考慮しC言語に対し最低限の仕様拡張を加える形で筆者が設計したLPA向け動作記述言語1DC(One Dimensional C)の言語仕様を与える。1DCは以降、各章でアルゴリズムの記述等に用いられる。

 3章では、画像認識処理はその画素参照定義パタンに着目すると7つの演算グループに分類できることを元に、二つの拡張構成を有するLPAの利用を前提とした、既存並列化手法の整理や新規並列化手法の提案などにより、7つの演算グループの個々に対し演算量オーダーの意味で有効な並列化方式を提案し、それらをライン方式と総称する。また、ライン方式は各時刻におけるPE毎の更新画素位置集合をつなげて得られる軌跡である画素更新ライン(PUL:Pixel Updating Line)の形状に特徴を持ち、そのうち4種類のPULの組み合わせが、7種類の画素参照定義パタンの並列化に対応することを示す。

 4章では、まず各演算グループに属する典型的な画像処理タスクに対する、1PE(汎用プロセッサ)上での逐次アルゴリズムによる実現と、IMAP-VISION(256PE構成の実機LPA)上でのライン方式による実現とを比べた場合の速度向上比(台数効果値)を求め、それを理論的な台数効果期待値と比較することにより、IMAP-VISION上でのライン方式の動作効率を評価する。そしてその評価結果を元に、実機LPA上でライン方式をより効率的に実現するためには、LPA型プロセッサのPEアレイが持つ汎用的なRISC型命令セットに対し、幾つかの改良を加える必要があることを指摘する。

 5章では画像認識処理の実アプリケーションに対する1DCコンパイラ生成コードの命令実行プロファイルの解析結果に対する考察、および4章で示したLPAによるライン方式の実行効率向上に向けた命令セット改良の方針に従い、新規開発のLPA型プロセッサであるIMAP-CEの命令セット最適化設計を行う。また128個のRISC型PEをワンチップに集積し、100MHzで動作しピーク性能が51.2GOPSに達するシングルチップタイプのLPA型プロセッサIMAP-CE全体のハードウェア設計やLSI開発について述べる。

 6章ではまず、4章と同様に基本画像処理タスクに対するIMAP-CEの台数効果値を求め、それを4章で求めたIMAP-VISIONの台数効果値、および理論的な台数効果期待値と比較することにより、IMAP-CEの基本性能を評価する。次に、幾つかの実用的な画像フィルタタスク群、および運転支援システムに向けた車両検出処理プログラムによる、汎用プロセッサとのベンチマークテストを行うことにより、IMAP-CEの汎用プロセッサと比較した場合の性能優位性や発熱効率性を検証する。

 最後に7章で結論、および本研究の今後の課題や展望について述べる。

以上

審査要旨 要旨を表示する

 本論文は、多種多様な画像認識応用の高速処理を目的としたプロセッサの開発であり、そのために画像認識処理が持つ高い画素並列性をそのまま生かせる並列プロセッサ構成の一つである一次元プロセッサアレイ(LPA)に対し、LPAの性能を最大限に引き出せるようにするためのソフトウェア的およびハードウェア的方法論を追求したものである。

 大量の画素に対し様々な処理を施し、リアルタイムに処理結果を求めるながらも、オープンエアの中で長時間利用が求められる画像認識応用の実用化には、1)高速性、2)発熱効率性、そして3)柔軟性を兼ね備えた画像認識プロセッサが不可欠である。そのプロセッサ構成の有力な候補として、画像認識処理が持つ高い画素並列性をそのまま生かせる「高並列SIMD型1次元プロセッサアレイ(LPA)」があるが、LPAの性能を引き出すためには専用の並列アルゴリズムを設計する必要があるのに対し、その並列アルゴリズムの設計手法が現状整理されていないため、多種多様に存在する画像認識処理に対するLPA型プロセッサの有効性が明確でないという問題点がある。また、既に提案されている幾つかのLPA向け並列アルゴリズムはあるが、それらの実機LPAへの実装例が報告されていないため、実機上での実行効率も未知数である。

 本論文は、「画像認識処理のための一次元プロセッサアレイの設計と開発」と題し、全7章からなる。

 第1章ではまず研究の背景として、画像認識処理の構造面および応用面での特徴から導かれる画像認識プロセッサに対する3つの要求仕様の存在、そしてLPA型プロセッサがそれらの要求仕様の満足により適合したプロセッサアーキテクチャであるということについて述べている。また「実効性能の高いLPA型画像認識プロセッサ」を実現するという本論文の研究目的、およびLPA向け並列化方式の整理や新規設計、そしてその際に得た知見のハードウェア設計へのフィードバックにより研究目的を達成していくという本論文の研究方針について述べている。

 第2章ではLPAの基本動作やPE自律性の追加によって可能となるその拡張動作を、従来のC言語を拡張することにより簡潔に指定可能できるようにしたLPA用動作記述言語1DC(One Dimensional C)の言語仕様設計について述べている。

 第3章では、画像認識処理はその画素参照定義パタンに着目すると7つの演算グループに分類できること、および拡張構成を有するLPAを利用することを前提に、既存並列化手法の整理や新規並列化手法の提案により、7つの演算グループの個々に対し演算量オーダーの意味で有効な並列化方式を与え、それらをライン方式と総称している。また、ライン方式は各時刻におけるPE毎の更新画素位置集合をつなげて得られる軌跡である画素更新ライン(PUL:Pixel Updating Line)の移動パタンに特徴を持つが、4種類の典型的なPUL移動パタンが存在すること、および7種類の画素参照定義パタンの並列化は、これら4種類のPULの組み合わせ的利用により実現されていることを示している。

 第4章では、まず各演算グループに属する典型的な画像処理タスクのそれぞれについて、256PE構成の実機LPA であるIMAP-VISION上でのライン方式による実現の、汎用プロセッサ(1PE相当)上での逐次アルゴリズムによる実現に対する速度向上比(台数効果値)を求め、それを理論的な台数効果期待値と比較することにより、IMAP-VISION上でのライン方式の動作効率を評価している。そしてこうした性能評価を通じ、実機LPA上でライン方式をより効率的に実現するためには、LPA型プロセッサのPEアレイが持つRISC命令セットに対し、幾つかの重要な改良を加える必要があるという知見を得ている。

 第5章では、画像認識処理の実アプリケーションに対する1DCコンパイラ生成コードの命令実行プロファイルに対する解析の結果、および第4章で得たPEアレイのRISC命令セット改良に関する知見を元に、新規開発のLPA型プロセッサであるIMAP-CEの命令セットおよびハードウェア構成の最適化設計を行っている。またその結果、128個のRISC型PEを100MHzで同時動作させることでピーク性能51.2GOPSを有するIMAP-CEのLSI化を実現している。

 第6章ではIMAP-CEの性能評価を行っている。まず第4章と同様の手法でIMAP-CEの台数効果値を求めIMAP-VISIONのそれと比較した基本性能評価では、最大で3倍の台数効果値向上という結果を得ている。次に、幾つかの実用的な画像フィルタ処理や一つの運転支援システム向け車両検出処理の、ライン方式に基づく1DCプログラムおよび通常の逐次アルゴリズムに基づくCプログラムの両方を用いた、IMAP-CEと汎用プロセッサとのベンチマークテストでは、IMAP-CEが汎用プロセッサの20分の1の消費電力と60%の回路規模の下で、4〜20倍の実効性能を持つことを確認している。これらの評価結果により、高級言語プログラム利用という条件下でも、IMAP-CEが汎用プロセッサに対し高い性能優位性や発熱効率優位性を持つことを確認している。

 第7章は結論であり、以上の成果によって、本研究で開発した画像認識プロセッサIMAP-CEが実アプリケーションに対しても高い有効性を持ち、したがって本論文の目的を満足する「実効性能の高いLPA型画像認識プロセッサ」であり、当初の目的を達成することができたと結論づけている。

 以上のように、本論文は画像認識応用の実用化に不可欠な、高速性・発熱効率性・柔軟性を併せ持つプロセッサLSIを、一次元プロセッサアレイ(LPA)という並列プロセッサ構成およびライン方式という並列化手法の採用により実現できることを示した。これは画像認識応用のアプリケーション分野やコンピュータアーキテクチャの分野において、価値ある成果だと言え、工学全般の発展に大きく寄与するものである。

 よって本論文は博士(工学)学位請求論文として合格と認められる。

UTokyo Repositoryリンク