学位論文要旨



No 213937
著者(漢字) 河辺,峻
著者(英字)
著者(カナ) カワベ,シュン
標題(和) ベクトル処理の要素並列パイプライン方式による高速化とその実現方式に関する研究
標題(洋)
報告番号 213937
報告番号 乙13937
学位授与日 1998.07.16
学位種別 論文博士
学位種類 博士(工学)
学位記番号 第13937号
研究科 工学系研究科
専攻 情報工学専攻
論文審査委員 主査: 東京大学 教授 田中,英彦
 東京大学 教授 武市,正人
 東京大学 教授 井上,博允
 東京大学 教授 近山,隆
 東京大学 教授 喜連川,優
内容要旨

 科学技術の進歩に伴い、多くの分野で大規模な計算が必要になってきている。歴史的には原子力、航空工学、気象予報などの大規模計算を対象に、一般にスーパーコンピュータと呼ばれる科学技術計算専用機が、開発され使用されてきた。スーパーコンピュータの特徴としては「並列処理」や「ベクトル処理」がその高速処理技術としてあげられる。特に1970年代前半から商用化された「ベクトル処理」を行うスーパーコンピュータは大きく発展を遂げ、現在商用化され実用に供されているスーパーコンピュータは、ほぼすべてといってよいほどこの「ベクトル処理」と呼ばれる高速演算方式を採用し、これによって高い性能を実現している。このため、スーパーコンピュータは「ベクトル・プロセッサ」とも呼ばれている。

 高速なコンピュータを実現するためには、

 ・アーキテクチャやプロセッサの論理方式上の工夫。

 ・半導体素子やその実装上の工夫。

 に大きく分けられる。本研究は、ベクトル・プロセッサにおけるシングル・プロセッサの高速化に関し、主として前者のアーキテクチャやプロセッサの論理方式上の研究を対象としている。科学技術計算における高速化技術であるベクトル演算処理アーキテクチャは、広くその効果が認められている。

 さらにそのアーキテクチャを高速に処理するための、プロセッサの高速化論理方式について特に、ベクトル・プロセッサにおけるシングル・プロセッサの高速化に関し、「要素並列型演算パイプライン方式」技術を開発し、実際の製品に適用(HITAC S-820)した。

 図1に要素並列型演算パイプライン方式の構成図を示す。

図1に要素並列型演算パイプライン方式の構成図

 この図においてベクトル処理ユニットの加算器を8個、乗算器を8個、ロード専用回路を8個、ロード/ストア兼用回路を8個設けることによって高性能を実現している。このとき、それぞれの演算器は図1に示すようにi、i+1、i+2、・・、i+7と連続する8要素を並列に、同時に演算する(このため要素並列型演算パイプラインと呼ぶことにした)。主記憶とベクトル・レジスタ間のベクトル・データ転送も8要素並列のロード回路と8要素並列のロード/ストア回路をそれぞれ1つずつ設けている。

 この結果、要素並列型演算パイプライン方式を採用した場合としない場合の演算器およびロード・ストア回路の利用率を比較すると図2のようになる。

図2要素並列型演算パイプライン方式の演算器およびロード・ストア回路の利用率の比較

 この図はリバモアループ14ループの中のベクトル化された8ループについての解析結果である。全体の平均で比較すると、要素並列型演算パイプライン方式を採用した場合の平均利用率が77%であるのに対し、従来の方式では平均利用率が37%にとどまっている。

 また要素並列型演算パイプライン方式の効果を比較するため、性能をクロック比で比較した。この様子を図3に示す。この図において従来の方式であるS-810での性能を1として、S-820の各種方式をS-810に対する倍率で示した。まず要素並列型演算パイプライン方式なしの場合の、S-810とS-820のクロックの比較は、本来ならば1倍となるべきであるが、実際は0.9倍程度である。これはロード/ストア回路、加算器、乗算器の部分の制御はほぼ1倍と考えられるが、主記憶へのアクセスがクロック数で比較するとS-820の方が多いことによる。

図3要素並列型演算パイプライン方式の方式評価

 要素並列型演算パイプライン方式ありの場合は、2つに分けられる。1つはベクトル処理の分割起動を行わない場合(S-810と同じ起動方式)で、図3では「要素並列あり2」で示してある。もう1つはS-820で導入したベクトル処理の分割起動を行う場合で、図3では「要素並列あり1」で示した。整数予測や状態方程式のループのように、ループ内の演算回数やメモリアクセスの多いものについてベクトル処理の分割起動方式は、特に大きな効果があることがわかる。

 S-820ではS-810と比較してロード/ストア回路、加算器、乗算器の数をそれぞれ2倍にしてあるので方式性能比は2倍前後が目安となる。「要素並列あり1」(ベクトル処理の分割起動方式あり)の場合で比較すると、いずれのループもほぼ2倍になっている。2倍を越えているループ(差分、差分予測、内積2)は、いずれも要素並列型演算パイプライン方式によって、ロード/ストア回路、加算器、乗算器の利用率をS-810より2倍以上に高めているループである。

審査要旨

 本論文は、「ベクトル処理の要素並列パイプライン方式による高速化とその実現方式に関する研究」と題し、9章からなる。パイプライン方式のベクトルプロセッサを用いたスーパーコンピュータは、高度な科学技術の研究開発に重要な道具であるが、本論文は、そのシングル・プロセッサをさらに高速化する技術を論じ、それを実際の製品に適用して効果を検証した研究をまとめたものである。

 第1章「序論」は、本研究の背景と目的について述べ、さらに本論文の構成をまとめたものである。

 第2章「コンピュータの高速化方式におけるベクトル処理方式の重要性と本研究の位置付け」では、高速化方式におけるベクトル処理方式の重要性、ベクトル演算の種類と命令数などについて述べ、リバモア・14カーネルでのベクトル化状況を評価している。さらにベクトル・プロセッサの発展と本研究の位置付け、およびコンパイラ技術との関連についても述べている。

 第3章「ベクトル処理方式の分析と問題点」では、ベクトル処理方式を分析しその問題点について述べている。すなわち、ベクトル処理方式の概念と高速処理の原理について述べた後、従来のベクトル処理方式について分析を行い、その高速化の限界を明らかにし、これにより課題をまとめている。すなわち、項数の少ない演算の性能向上、短ベクトル時の性能向上、TSS環境での処理を可能にすること、およびスカラ処理性能の向上である。

 第4章「要素並列型演算パイプライン方式」では、研究・開発を行った要素並列型演算パイプライン方式について詳細を述べている。ベクトル処理ユニットの加算器、乗算器、ロード専用回路、ロード/ストア兼用回路をそれぞれ8個設け、連続する8ベクトル要素を並列に演算可能とすることで性能向上を計っている。この方式の利得を評価するために、演算器およびロード・ストア回路の利用率を、リバモアループ14ループの中のベクトル化された8ループについて比較したところ、従来の方式では平均利用率が37%にとどまっているのに対し、要素並列型演算パイプライン方式を採用した場合は平均利用率が77%に向上することを示している。

 第5章「要素間に相互依存性のある処理の高速化方式」においては、特に大規模科学技術計算によく現れる総和型演算と巡回型演算について考察し、要素間に相互依存性があるため、これらの演算は従来逐次処理となっていたが、総和型演算では部分和を並列に処理したのち、後処理に専用演算器を導入することにより並列処理が可能であること、また巡回型演算については、演算式を展開し専用の制御演算器を設けることにより、2要素を並列に処理することが可能であることを示している。

 第6章「ベクトル処理の分割起動方式と主記憶制御方式」では、ベクトル処理を早期に開始するための分割起動方式、およびベクトル処理において主記憶とのデータのやり取りを効率良く行う主記憶制御方式について述べている。

 第7章「実現した方式の性能評価」では、本研究で開発し、実際の製品に適用して実現した各種の高速処理方式の性能評価を行っている。要素並列型演算パイプライン方式の性能評価では、リバモアループ14ループに関して論理方式で2倍の効果があること、要素間に相互依存性のある処理として総和型演算と巡回型演算の性能評価では、従来方式と比較して論理方式で2.4〜3.3倍の効果があることを示している。また主記憶制御方式では主記憶スループットの評価を行い、特にアドレスが連続する場合は主記憶スループットが100%になることを確認している。

 第8章「今後の高速処理方式に関する考察」では、今後の高性能コンピュータの高速処理方式について触れ、半導体技術の動向をふまえたベクトル処理方式とRISC処理方式およびそれらの並列処理技術について考察し、大規模な科学技術計算を効果的に解くアーキテクチャの開発とソフトを含む並列処理技術の開発などが中心になると予測している。

 第9章は、「結言」である。

 以上、これを要するに本論文は、大規模な科学技術計算用のベクトル・プロセッサの性能をさらに高速化する技術として、ベクトル要素の並列パイプライン処理による高速化論理方式と、要素間に相互依存性のある処理の高速化方式を開発し、実際の製品に適用して効果を実証したもので、情報工学上寄与するところが大きい。

 よって、本論文は、博士(工学)の学位請求論文として合格と認められる。

UTokyo Repositoryリンク http://hdl.handle.net/2261/51082