グラフィックス・システムはCADをはじめとする様々な分野において利用されている。そのようなグラフィックス・システムへの要求には主に次の2つがある。一つは複雑な幾何モデルの3次元陰影つき画像をリアルタイム速度(1秒間に30フレーム程度)で生成できることである。これには膨大な計算能力が必要となるため、多数のプロセッサを並列動作させることが必須となるが、その際に鍵となるのがシステム・アーキテクチャのスケーラビリティであり、この性質がなければ上で述べた要求を満たすことは不可能である。グラフィックス・システムに対するもう一つの要求は柔軟性、すなわち広い範囲の画像生成法に対応できることである。本論文では、この2つの要求を満たすグラフィックス用並列計算機のアーキテクチャについて述べ、更にその上での効率的なポリゴン描画法について議論する。 提案する並列アーキテクチャはMIMD型の疎結合マルチプロセッサに基づいている(図1)。マルチプロセッサに基づいたグラフィックス・システムについては既に多数の報告例があるが、我々の計算機は無競合複数ポートフレームバッファ(CFMFB)と呼ばれる新しいフレームバッファ系を持っているという点で、従来のものと異なる。CFMFBでは、各プロセッサ毎に用意された局所フレームバッファの画像が合成されてCRTに出力される構造を持っているため、すべてのプロセッサは画面のどの領域でも競合なく書き込むことができる。さらに、CFMFBはスケーラビリティの点で優れており、プロセッサ数を任意に増やすことができる。 図1:VC-1のアーキテクチャ CFMFBの構造は次の通りである。各プロセッサ毎に独立して存在する局所フレームバッファ(LFB)、それらにつながるパイプライン画像合成器(PIM)、そしてシステムに1つだけ存在する大域フレームバッファ(GFB)から構成されている。LFBは対応するプロセッサの出力した画素値(色情報やZバッファ法によって画像生成する際に使用される深さ情報など)を保持する。LFBでは画像メモリを節約するために、仮想記憶におけるデマンドページングに類似した機構を使用し、フレームバッファヘのアクセスのあった部分だけに画像メモリを割り付けている。LFBの内容はPIMによってリアルタイムに合成されてGFBに転送される。GFBは全画面の画素値を保持し、画像合成速度とCRTスキャン速度の差の吸収する働きを持つ。 次に、上に述べたアーキテクチャ上で動作するポリゴン描画の並列アルゴリズムについて述べる。本手法は、モデルを構成するポリゴンの集合を互いに素な部分集合に分割して各プロセッサに割り付けるポリゴン並列型のタスク分割を採用している。 描画手順の概要は以下の通りである。まず、ポリゴン形状情報などを含む物体データベースがホストコンピュータから各プロセッサの局所メモリにロードされる。次に、ホストコンピュータの開始指示により、各プロセッサは担当ポリゴンを順にZバッファ法を用いて局所フレームバッファに対して描画する。各プロセッサは他のプロセッサとの通信を全くせずに描画処理を進めることができる。すべてのプロセッサの描画完了するのを待って、1フレームの描画が終了する。連続するフレームの生成では、フレーム描画間に物体データベースの変化分だけをホストコンピュータから送ることによって通信の削減を図る。 本手法では、並列化効率を上げるためにさらに2つの技法を導入している。1つは、ポリゴンの画面上での面積の予測値によってラスタ化の並列化方法を適応的に選択する適応並列ラスタ化である。これは、大きなポリゴンの場合に限り画素並列型の並列処理を行なうことによって、負荷の不均衡や局所フレームバッファにおける画像メモリ不足を防止する。もう1つは動的クラスタ再配分と呼ばれ、描画中の負荷の変動に応じて、動的にポリゴンのマッピングを変更するものである。一般的な動的負荷分散法は多数提案されているが、ここではこの問題に適した新しい分散制御型の動的負荷分散法を提案している。 上に述べた並列アーキテクチャ及び並列ポリゴン描画アルゴリズムの有効性の実証をするために、16台のプロセッサとCFMFBからなる実験機VC-1を作成した。VC-1は汎用プロセッサを使用し、特定の描画アルゴリズムに依存したハードウェアを持たないため、柔軟性に優れている。実験の結果、16台までの線形な性能向上を確認するともに、局所フレームバッファでデマンドページングを行うことによって画像メモリの容量を全画面の1/8にまで減らせることを確認した。また適応並列ラスタ化は、最大15%の性能改善をもたらすことが実証された。 さらに、VC-1を用いて256台のプロセッサシステムまでの描画性能予測を行った。その結果、256個のプロセッサシステムにおいても、ほぼプロセッサ数に比例する速度向上が見られ、汎用プロセッサだけを用いて従来に比べ格段に高速なグラフィックス・マシンが実現できることが示された。 |