学位論文要旨



No 119532
著者(漢字) 入江,英嗣
著者(英字)
著者(カナ) イリエ,ヒデツグ
標題(和) クラスタ化プロセッサにおける分散投機メモリフォワーディング手法の研究
標題(洋)
報告番号 119532
報告番号 甲19532
学位授与日 2004.03.25
学位種別 課程博士
学位種類 博士(情報理工学)
学位記番号 博情第13号
研究科 情報理工学系研究科
専攻 電子情報学専攻
論文審査委員 主査: 東京大学 教授 田中,英彦
 東京大学 教授 坂内,正夫
 東京大学 教授 近山,隆
 東京大学 教授 喜連川,優
 東京大学 教授 藤田,昌宏
 東京大学 教授 坂井,修一
内容要旨 要旨を表示する

情報処理の中核となるマイクロプロセッサには常に性能向上が期待されている。マイクロプロセッサの構成や動作を設計するマイクロアーキテクチャ研究の分野では、動作周波数の向上と、1サイクルあたりの処理の並列度の双方のバランスを取りながら、全体の性能を向上させてきた。今後プロセッサ設計を取り巻く状況を概観すると、Simultaneous Multi Threading技術やメディア演算など、広い並列実行幅の利用が見込まれる一方、配線遅延の影響が深刻になることが予測されており、高い動作周波数と広い実行幅を両立させる、効率的な設計が求められている。

このような視点から、近年、実行部分を複数の軽量な実行nodeに分割する、“clustered microarchitecture”が研究者の注目を集めている。命令実行においてnodeを跨ぐ通信が発生する場合、通信遅延がIPC(instruction per cycle:実行並列度)上のペナルティとなるが、テーブルの分散化やフォワーディングパスの短縮により、集中型構成に較べて動作周波数を高速化することができる。このため、クラスタ化による周波数向上の効果が、IPC低下によって相殺されなければ、クラスタ構成を採用する利点がある。

本論文はこのclustered microarchitectureのキャッシュシステムに着目し、問題点の解析と、改善方法の提案を行う。評価のために、高い動作周波数向けにセッティングされたclustered super scalarモデルを策定し、トレースシミュレータに実装した。

clustered architectureのキャッシュには、アクセス遅延を増加させる要因がいくつか存在する。実行nodeとキャッシュ間の通信遅延、キャッシュテーブルを参照するためのアクセス遅延などは主に配線遅延に起因しており、クラスタ化によって配線遅延の影響を軽減している実行部分との間で速度の乖離が生じてくる。また複数のnodeがキャッシュを共有している構成では、キャッシュポートの競合を回避するための調停が必要となるが、通信レイテンシが無視できないほど大きいため、調停にかかる遅延も大きなものとなる。これらの理由から、先行するclustered architecture研究モデルで見られる集中型のキャッシュモデルでは、アクセス遅延が著しく増加することが予想される。一方、既存の分散キャッシュモデルでは、個々のキャッシュを小容量にしてアクセス遅延を軽減させることができるものの、コンシステンシを保つための通信オーバヘッドが大きくなってしまう。またnode間でアクセスが干渉しない、アドレスによる分割法では、キャッシュを小容量にでき、コンシステンシのオーバヘッドも回避できるが、フロントエンド処理時にどのnodeのキャッシュを使用するか予測して実行nodeを決定する必要があるため、予測器の精度の低さが問題となる。

node内に小さなバッファを設け、アクセスをnode内のみに限定すれば、アクセス遅延やポート競合の影響を軽減することができる。本研究では、このような限定されたバッファの利用法として、メモリ依存予測に基づく投機データフォワーディングに適用することを提案する。一般にストア命令とロード命令のメモリ依存関係には局所性があることが知られており、依存のあったストア命令とロード命令のPCを記憶しておくことにより、高い確率でストア-ロードのメモリ依存関係を予測することができる。提案手法では、フロントエンド処理でこの依存予測情報をマージし、依存関係にあるストア命令とロード命令が同じnodeで実行されるようにステアリング処理を行う。実行node内には小容量のバッファが追加され、ストア命令の動的なIDとストア値がペアで保持される。ロード命令はこの小容量バッファを、親と予測されたストア命令のIDによって参照することで、値を投機的に得ることができる。この機構を採用することで、正しく依存予測を行えたロード命令は、長いキャッシュアクセスレイテンシを回避することができ、後続する命令を滞らせずに実行させることができる。

この手法の利点は、node内に設けるバッファが非常にシンプルで高速なこと、小エントリで高い効果を得ることが期待できること、親のストアを監視することにより、正確に後続命令の予測wakeupができること、などが挙げられる。一方、バッファの利用が依存予測手法の適用率に依存すること、データ投機であるため、キャッシュへのチェックロードが必要であること、ミスフォワードをしてしまった場合はパイプラインフラッシュが必要であることなどが欠点である。

シミュレータにより、まずメモリ依存予測手法の適用率について傾向を調べ、次に、バッファ容量とIPC向上の相関について調べた。これらの評価を通して、本手法では非常に少ないエントリ数のバッファにより大きな効果を得ることができることを示す。

審査要旨 要旨を表示する

本論文は、「クラスタ化プロセッサにおける分散投機メモリフォワーディング手法の研究」と題し、7章からなる。次世代プロセッサの有望な方式にクラスタ型プロセッサがある。これは、実行コアを複数のクラスタで構成し、各要素回路を小型化することにより処理ネックを解消しようとするものである。しかし、小型化の恩恵に属さないフロントエンド部やメモリ参照処理は逆に、従来よりも遅延による影響を受けることが予想される。本論文は、このようなクラスタプロセッサのメモリ参照オーバヘッドを減少させる手法について考察したものである。

第1章「序論」は、研究の背景、目的を述べるとともに、本論文の構成についてまとめたものである。

第2章「関連研究」は、マイクロプロセッサの処理性能向上技術として、スーパースカラプロセッサ、メモリアクセスの投機実行、及びクラスタ化アプローチなどの従来技術を検討し、それらの問題点を考察している。

第3章「ベースラインモデル」は、方式の定量的な議論のために評価用ベースラインモデルを与え、評価環境について述べたものである。そのモデルは、今後の高クロック指向を想定し、小規模で高速に動作可能なクラスタと、深いフロントエンド処理パイプラインを持つものである。特に、メモリ参照部分は理想化せず詳細なモデルとなっており、L1キャッシュは集中型であるが、参照遅延には実際の状況を反映して長いクロック値を設定し、ロード・ストア間の依存関係分析にはウェイトテーブルによる依存予測を用い、ロード命令に投機的な先行発行を行う方式としている。また、さまざまな部分処理に要するクロック数パラメータも与えており、クラスタ間レジスタファイルアクセス遅延は2サイクルとしている。

第4章「クラスタ化スーパースカラ・プロセッサにおけるメモリ参照処理」では、今後、高クロック化に伴って、ロード命令、ストア命令などのメモリ参照命令処理がますます大きなオーバヘッドとなることに鑑み、その原因を検討して、キャッシュ参照遅延の増加、メモリ依存関係が命令発行時点では曖昧であることによる影響、クラスタ間遅延やクラスタ台数の効果などの分析をおこなっている。

第5章「投機分散メモリフォワーディング」は、前章の分析に見られるキャッシュ参照遅延の大きな影響を隠蔽するために考案した投機分散メモリフォワーディング手法について述べたものである。これは、クラスタ毎に小容量のローカルフォワードバッファを設けるもので、ストア値が生成される度にその値をここに保持する。それとメモリ依存関係を持つ可能性のあるロード命令は、読み込むストア値を持っているクラスタへステアリングによって割り付けられ、そのバッファから値を投機的に読み込むことにより、従来のキャッシュ階層をバイパスしローカルな参照で済ませることができる方式である。これは、分散キャッシュとは異なり投機的なもので、複雑なコヒーレンス制御が不要で単純かつ高速なフォワーディング方式となっている。この章では、更に、メモリ依存予測機構やフォワード機構など、この方式の詳細な構成法を与えている。

第6章「分散投機メモリフォワーディングの評価」は、5章で提案した方式を評価したもので、メモリ依存予測器はエントリ数が4k、ローカルバッファエントリ数は、8エントリで約3割のロード命令が高速に処理でき、その性能向上は20%程度、予測の確信度カウンタを定期的にリフレッシュすることにより、更に7%程性能が向上することなどを明らかにした他、キャッシュ参照遅延の値によるその効果への影響度合い、応用ごとの傾向、クラスタ台数効果などを検討している。

第7章「おわりに」で、研究をまとめるとともに、今後の課題を与えている。

以上、これを要するに本論文は、今後のプロセッサ性能向上に大きな影響を与えることが予想されるメモリ参照オーバヘッドを軽減する手法として、クラスタ化アーキテクチャで用いる各クラスタに小さなバッファを設け、命令ステアリングとメモリ依存予測を組み合わせて用いることが有効であることを示したもので、情報工学上貢献するところが少なくない。

よって本論文は博士(情報理工学)の学位請求論文として合格と認められる。

UTokyo Repositoryリンク