学位論文要旨



No 215141
著者(漢字) 松本,尚
著者(英字)
著者(カナ) マツモト,タカシ
標題(和) 分散メモリ環境におけるメモリベース通信同期に関する研究
標題(洋) A Study on Memory-Based Communications and Synchronization in Distributed-Memory Systems
報告番号 215141
報告番号 乙15141
学位授与日 2001.09.17
学位種別 論文博士
学位種類 博士(理学)
学位記番号 第15141号
研究科
専攻
論文審査委員 主査: 東京大学 教授 米澤,明憲
 東京大学 教授 小柳,義夫
 東京大学 助教授 江崎,浩
 東京大学 教授 清水,謙多郎
 慶應義塾大学 教授 天野,英晴
内容要旨 要旨を表示する

 共有メモリモデルにおける記述力はメッセージパッシングを基本とするプログラミングモデルと同じである。言い替えると、どちらのモデルでも他方をエミュレートすることが可能である。しかし、性能の観点から見ると事情は異なっている。メモリはコンピュータにとって最も基本的な構成要素の一つであり、メモリ管理機構によって保護され仮想化された状態で、プロセッサが直接アクセスが可能である。このため、通信や同期を行うサブシステムにおいて、メモリに関する情報が使用できることが高速化および多機能化にとって非常に重要である。この事実は通信同期がハードウェア実装されているかソフトウェア実装されているかに依存しない。もう少し具体的に述べると、通信先の最終目的地のバッファアドレスを通信サブシステムが認識していれば、通信サブシステム内で直接その領域へのデータ転送を済ませてしまうことが可能になる。この転送はメモリへの転送であるため、プロセッサのメモリ管理機構と同様の保護機構を使用することにより、保護と仮想化も実現可能である。以上の原理に基づいた三種類のメモリベース通信同期機構を考案し、その内の二種類は実装技術の研究と実用性の評価のために実際に開発を行った。

 最初の機構はMemory-Based Processor (MBP)と呼ばれる細粒度処理用のコプロセッサである。MBPはメインメモリ内に実装され、通信同期のような局所性を活かせない処理を担当する。一方、MBPを補完する相手としてメインプロセッサには大きなレジスタセットとキャッシュによって局所性を活用する従来型高性能マイクロプロセッサが使用される。MBPの起動はメインプロセッサからメモリへ出力されるメモリ操作トランザクションであり、共有された領域へのトランザクションはMBP内のhardwired回路によってコンシステンシ維持操作がなされる。このコンシステンシ維持に付随してメモリを介したノード間通信がなされる。MBPはネットワーク上に仮想化された論理アドレス空間(ネットワークアドレス空間)を張っており、ノード内の物理アドレスからネットワークアドレスに変換するC-TLBと、ネットワークアドレスからノード内の物理アドレスに変換するN-TLBをアドレス変換の高速化のために内蔵している。また、これらのTLB内のエントリをオペレーティングシステムによって適正に管理することによって、ページ単位でメモリベース通信同期に対して保護を掛けることができる。この二段階のアドレス変換方式により、各ノードは特定のネットワークアドレスに対して自由な物理アドレスを割り当てることが可能になり、ネットワークアドレスを利用にしたキャッシングがノード内のメインメモリを流用して可能となった。MBPが考案されるまでは、ハードウェアベースの分散共有メモリはシステム全体で一意である物理アドレスを使用し、遠隔メモリのキャッシュ用に特別なメモリ、つまり本来の物理アドレスをタグとして保持する機構がついたハッシュメモリが用意されていた。MBPの考案発表以降は、Reflective MemoryやMemory Channelといった類似のアドレス変換機構を持った機構が実用化されていった。しかし、Reflective MemoryやMemory Channelは更新型のプロトコルしか持たず、プログラムが持つ局所性を破壊してしまうという重大な欠点があった。これに対して、MBPは考案当初から、複数のプロトコルを適材適所で使い分けることが想定されており、一般的な無効化型プロトコルや単純な遠隔書き込みおよび遠隔読み出しといった操作も可能に設計された。これらのプロトコルをページ単位に指定することが可能であり、変数やデータの性質によってプロトコルを使い分けることが可能となっていた。MBPはページ単位に共有を管理することと先述のアドレス変換方式によって、メインメモリを効率良く遠隔キャッシュに利用することを可能にしている。しかし、この方式では、メインプロセッサによる粒度の細かいメモリアクセスと無効化型プロトコルの相乗効果によってページ単位の無効化が頻発する危険性がある。この危険を回避するために、ページ単位で共有の管理を行うが、データの移動や無効化はメインプロセッサのキャッシュブロック単位で行う方式を確立させた。つまり、メインメモリにはキャッシュブロック単位で状態を示すタグが付与される。アドレス情報や共有情報はページ単位でよいため、キャッシュブロック単位でこれらすべての情報を持つMBP考案以前のマルチプロセッサよりも、タグのメモリ量は大幅に少ない。

 MBPは超並列計算機の構成要素として考案されたため、MBPの研究開発においてもう一つ重要な技術が考案された。それは、「階層マルチキャストとAckコンバイニング」と呼ばれる技術である。分散共有メモリではメモリを介して同期を取るためメモリの操作順序が同期の基本となる。このために、どのメモリ操作までが確実に終了しているかがメインプロセッサから確認できる必要がある。そこで、コヒーレンス維持のために発生するマルチキャスト通信において、通信先の各ノードからAcknowledge-message(Ack)をマルチキャスト要求元に返送する必要がある。マルチキャスト先が多くなればなるほど、要求元にはAckの返送が集中してAckの回収で大きなオーバヘッドが発生してしまう。この問題に関して、通信路にtree構造を埋め込んでtreeの各経路選択場所において階層的にAckを回収することで、マルチキャスト要求元へのAckメッセージの集中を防ぐことに成功した。この技術は実際の市販並列マシンにも採用されている。

 MBPの次に研究開発されたのが、Memory-Based Communication Facility(MBCF)である。MBCFは、当初MBPの機能をオペレーティングシステムの層で効率良くエミュレーションできないかと考えて開発が開始された。しかし、開発を進める上で、MBCFが純粋なソフトウェア実装であることが大きなメリットとなることが判明してきた。通常のパーソナルコンピュータやワークステーションにethernetを装着するだけで、MBCFシステムの計算ノードにすることが可能である。そして、ethernetは通信粒度が1500byte程度の中粒度まで許されるため、データ転送の効率を高めることができる。MBPは他のハードウェア分散共有メモリと同様にメインプロセッサのメモリ操作で直接起動されていたため、キャッシュブロックまたはそれより小さい細粒度での通信やコヒーレンス処理を余儀なくされていた。これに対して、MBCFは1パケット以下の任意サイズのメモリ操作を可能なメモリベース通信同期として定義され、MBPの遠隔メモリ操作をいわゆる遠隔メモリDMAに拡張したものとなっている。つまり、MBPの通信粒度を大きくしたものがMBCFである。MBPとMBCFを比較すると、MBCFはメインプロセッサ内蔵のTLBをN-TLBとして流用し、MBCF送信時のパラメータに通信相手の論理アドレスを直接指定することによりC-TLBを省略可能にしたものであることが判る。MBCFの実装技術としても、最新マイクロプロセッサのアーキテクチャ的な特徴を利用した高速化とプログラミングエンジニアリング的な高速化を組み合わせて、保護と仮想化を保ったまま非常に高速なユーザタスク間通信を可能としている。ethernet上への実装では、100BSAE-TXとSPARCstation 20の組合せで、最大11.93MB/secのデータ転送能力と24.5μsecの片道レイテンシを達成した。また、1000BASE-SXとULTRA 60組合せでは、最大80.92MB/secのデータ転送能力と9.6μsecの片道レイテンシを達成した。最大転送能力が1Gbit/sec(125MB/sec)に及ばないのはULTRA 60のハードウェア的な制約から来るものであり、MBCFのソフトウェアオーバヘッドのみがボトルネックであればwire speedが十分達成できることを確認した。さらに、通信先の論理アドレスを指定することにより、FIFO操作やSIGNAL操作といった高機能操作が論理アドレスで仮想化されて実現される。

 図1にULTRA60と1000BASE-SXを使用した環境におけるSSS-COREOS上のMBCFとSolaris上のTCP/IPの最大転送レートを転送データサイズを変えながら計ったグラフを示す。図2に同じ環境においてSSS-CORE OS上のMBCFとSolaris上のTCP/IPの片道遅延時間を転送データサイズを変えながら計ったグラフを示す。なお、TCP/IPの測定では片道遅延時間の測定ではTCP_NODELAYオプションを付加し、転送レートの測定では同オプションを外して少しでもTCP/IPの性能が向上するように優遇してある。しかし、結果は図の通り、遅延時間で十倍、転送レートで小さなパケットサイズでは格段の差が開いている。SSS-COREは筆者が研究開発中のMBCFを基本通信同期機構として持つ汎用スケーラブルオペレーティングシステムである。

 MBCFシステムによってワークステーションクラスタやPCクラスタに論理的な共有アドレス空間を張ることが可能となり、この空間の下で高速にユーザタスク間通信同期が可能となった。しかし、共有メモリで記述された並列プログラムを効率良く実行するためには、単に共有メモリとしてシステム全体のメモリがアクセスできるだけでは不十分であり、遠隔ノード内のデータが自分のノードにキャッシュする能力、いわゆるソフトウェア分散共有メモリの実現が不可欠である。ソフトウェア分散共有メモリでは、K.Li.によって1988年に発表されたメモリ管理機構を流用して、共有データへの書き込みやキャッシュミスの検出をページトラップで行う方法が一般的であった。この方式が開発された当初は、密結合マルチプロセッサの並列プログラムを分散メモリマシンでそのまま走らせようという狙いがあったため、プロセッサのload/storeを必要に応じてトラップして通信やコヒーレンス維持動作を実現するK.Li.の手法は画期的なものであった。専用ハードウェアをまったく必要としない点も好評を博していた。しかし、ページトラップ発生後の処理オーバヘッドが大く、複数の共有メモリ操作を同時に行わないと並列処理による性能向上が困難であることが判明してきた。そこで、ハードウェア分散共有メモリの研究活発化と同時に研究が進んだ緩和されたメモリコンシステンシモデルがソフトウェア分散共有メモリにも導入されるようになった。緩和されたメモリコンシステンシモデルでは、共有メモリアクセスをデータ転送のためのアクセスと同期のためのアクセスに分離して、データ転送のためのアクセス間には順序関係を課さずに、複数のメモリトランザクションの同時実行を可能とする。緩和されたメモリコンシステンシモデルの導入と、トラップルーチンの改良でソフトウェア分散共有メモリ上の並列プログラムの性能は大幅に改善した。ただし、この緩和されたメモリコンシステンシモデルの導入はそれまでの大前提、つまり密結合マルチプロセッサとバイナリコンパチビリティのある分散共有メモリマシンを開発するという前提を崩すことになったのである。分散メモリ実装の並列計算機に標準アーキテクチャが存在しないことも、バイナリコンパチビリティが無意味であることをサポートする事実である。これらの事実から導かれる結論として、ページトラップの流用というソフトウェア分散共有メモリの常識を打ち破った新しいソフトウェア分散共有メモリ実現のための方法論を考案した。つまり、ユーザレベルでキャッシュエミュレーションを行うコードをアプリケーションに最適化コンパイラによって挿入し、元のプログラムに対応するコードとキャッシュエミュレーション用に挿入されたコードを一緒にして徹底的な最適化を施すのである。特に最適化として、緩和されたメモリコンシステンシモデルを活用して、複数の細粒度コンシステンシ維持操作をより粒度の大きな通信に置き換えて通信回数を減らす最適化が非常に重要である。また、キャッシュのタグのチェック等も冗長なチェックは削除できる。連続した複数の共有メモリアクセスを解析することによって、多くのプログラムでは通信粒度を大きく改善できることが判った。実際に、MBCFと新方式を適用したソフトウェア分散共有メモリであるUDSM/ADSMに対応した最適化コンパイラRCOPが、筆者の共同研究者(丹羽淳平、稲垣達氏)の手によって研究開発された。RCOPは、今までワークステーションクラスタではスピードアップが難しい(並列処理を行うと性能が大幅ダウンする)と言われていたSPLASH-2のRadixやFFTといったプログラムの並列実行による性能向上に成功した。RCOPの成功の後、同種の最適化コンパイラの開発が多く見受けられるようになった。ShastaというバイナリトランスレータがRCOPと対比されるが、Shastaは通信回数や通信量を大幅に削減することを目的としていない点が最大の差であり、そのためShastaは最適化の余地が少ないバイナリトランスレータという形態を採っている。さらに言えば、Shastaの開発はMemory Channelを採用して無効化型プロトコルをソフトウェアエミュレーションによって実現せざるを得ないという事情からなされたものであり、Memory Channelは細粒度低レイテンシで大容量通信が可能な専用通信機構である。RCOPは汎用のLANカードで接続されたワークステーションクラスタ上で効率良く共有メモリ並列プログラムを実行するために開発された最適化コンパイラであり、ソースコードを手続き間解析を含む解析テクニックで徹底的に調べて、通信の回数と量を減らし、通信粒度を可能な限り大きくする。もちろん、本質的に細粒度通信を要求するようなアプリケーションに対しては我々の方式やRCOPは無力かもしれないが、SPLASH-2ベンチマークで見る限り我々のアプローチは大きな成果を上げている。

 通常のNICハードウェアを前提とした場合、MBCFは定性的に見て、メッセージパッシング型のインタフェースよりも通信同期システムのインタフェースとして優れている。通信相手のアドレス情報を活かして、コピー回数を減らしたり、特定の領域に単なる書き込み以上の高レベルの操作を施したりすることが可能となる。また、ワークステーション上のActive Message (AM)であるSparcStation Active Message (SSAM)は保護された高速通信がユーザレベルで可能な点で、MBCFと対比され得る数少ない通信方式の一つである。AMは命令ポインタを通信パケット内に持ち、パケットの受信を含む操作自体をその命令ポインタを含むユーザルーチンで行う通信方式である。AMでは受信はユーザが自由にカスタマイズしたルーチンで実現される。しかし、この受信ルーチンに何ら制約がないため、この受信ルーチンにカーネルモードで実行している割り込みルーチン内から制御を受け渡すことができず、UNIX signalのように間接的に受信先のタスクが制御権を持った時に、ユーザモードで実行権を渡す必要がある。この間接的な受信ルーチンの起動がオーバヘッドになり、SSAMは本質的にMBCFよりもオーバヘッドが大きい。MBCFは提供する操作の種類はいくらでも新たに開発可能であるが、大きなコストのかかる処理は実装しないというルールに従って操作を増やしていくため、受信割り込み内で操作を直接行うことが可能である。

 MBCFは実装技術を駆使して可能な限り軽量な高速通信として実装されている。しかし、メインプロセッサがプロトコル処理とデータコピー(最小限度の送受信で一回ずつ)を行っている。通信が十分に高速になり、例えばgigabit ethernet等で比較的粒度の小さなMBCF通信が多発した場合は、メインプロセッサがMBCF通信の処理で忙殺され本来の処理ができない事態も考えられる。さらに、セキュリティやプライバシーのために暗号通信が普及した場合は、大きな処理負荷をメインプロセッサに掛けかねない。そこで、通信処理や通信に伴う暗号処理を肩代りするネットワークインタフェースアーキテクチャMemory-Based Processor-II(MBP2)をMBCFに基づいて考案し、プロトタイプMBP2Pの開発を行った。開発期間の短縮のためMBP2Pは、マルチチップ構成を採り、組み込みプロセッサとgigabit ethernetのmedia access controllerにそれぞれ市販品であるSPARCliteとXMAC2を使用し、全体の制御用とデータパス用に大規模field programmable gate arrayを採用した。MBP2PはTLBを内蔵しており、ユーザタスクから直接DMAによってパケットを送信することが可能であり、受信時は直接ユーザタスク内のメモリにパケットの内容を反映させることができる。当初の予定通り、大きなサイズのデータ転送ではメインプロセッサの負荷を大幅に軽減することが可能となった。しかし、メインプロセッサのソフトウェアで実現されたMBCFよりもレイテンシは大幅に悪化した。この原因は非力な組み込みマイクロプロセッサにある。メインプロセッサと同程度のクロック周波数で走行していても、組み込みプロセッサは、二次キャッシュの不在、命令キャッシュの容量不足、ライトスルー方式のデータキャッシュ、スヌープ機構の不在という致命的な速度低下要因を複数持っており、メインプロセッサの数分の一程度の実力しかないことが明らかになった。この失敗を教訓に、MBP2アーキテクチャのような用途に使用可能な汎用組み込みマイクロプロセッサCasablancaを共同研究者(田中清文)と研究開発している。ただし、レイテンシのみを取り上げれば、最新の高性能マイクロプロセッサは非常に高速であり、その高速性を活用できるMBCFの方が将来的にもMBP2に優る可能性が大きい。ただし、MBP2は内部に暗号回路等を持つことにより、メインプロセッサの負荷軽減目的には大きな威力を発揮すると考えられる。

図1 MBCFとTCP/Solarisの最大転送レート

図2 MBCFとTCP/Solarisの片道遅延時間

審査要旨 要旨を表示する

 単体プロセッサの性能を越えた情報処理を可能にするために、並列処理システムもしくは分散処理システムが多く構築されるようになってきている。これらのシステムは通信同期サブシステムによって複数のコンピュータを相互接続した形態を採っている。効率の良い並列分散処理システムのの構築には、効率の良い通信同期方式の確立が不可欠である。

 本研究では、操作対象となるデータの論理アドレスを通信同期サブシステムが認識するというメモリベース通信同期方式(Memory-Based Communications and Synchronization scheme : MBCS scheme)というアプローチを採用している。これは共有メモリの考え方を通信同期サブシステムの効率化に使用するアプローチである。従来の通信同期サブシステムはメッセージパッシング方式に基づいており、送信手続きとそれに対応する受信手続きが必要であり、通信同期サブシステムからユーザタスクがデータを受信する時に付加的なデータコピーが必要になる。これに対して、MBCS方式に基づく通信同期サブシステムは通信要求側のみで通信が完了し、ユーザタスク上のデータを直接アクセスするため、データコピー回数も削減できる。また、直接ユーザタスク上のデータをアクセスするため、読み書き操作以外に不可分操作やキュー操作といった高度な同期機能を実現可能である。また、プロセッサのメモリ管理機構と同様の機構を使用することにより、マルチタスクに対応可能な保護と汎用性を保証することも可能である。そして、これらの利点は通信同期サブシステムがハードウェア実装されているかソフトウェア実装されているかに依存しない。

 本論文では、MBCS方式に基づいた三種類の通信同期機構が提案され、実証実験と考察によりその有効性が示されている。より具体的には、MBCS方式に基づいたサブシステムを、取り扱うデータの粒度と実装方式の違いによって大きく三つに分類し、それぞれに対して通信同期機構が提案されている。最初の機構はMemory-Based Processor (MBP)と呼ばれ、細粒度のデータ通信同期を行うハードウェア実装された機構である。また、MBPはハードウェア分散共有メモリ実現のための機構としての側面を持つ。次の機構は特殊なハードウェアを必要としない中粒度以上のデータ通信同期を行うソフトウェア実装されたMemory-Based Communication Facility (MBCF)と呼ばれる機構である。三番目の機構はMemory-Based Processor II (MBP2)と呼ばれ、中粒度のデータ通信同期を行うハードウェア実装された機構である。

 本論文は9章よりなっている。第1章は序論である。まず、メモリを介して通信同期を行う従来技術であるハードウェア分散共有メモリおよびソフトウェア分散共有メモリの過去の発展を概観する。そして、本論文の主題である、MBCS方式の導入が行われている。

 第2章はハードウェア実装の細粒度通信同期機構であるMBPについて述べられている。MBPはメインプロセッサに対するコプロセッサであり、メインメモリ内に実装され、通信同期のような局所性を活かせない処理を担当する。コプロセッサであるMBPの通信粒度はメインプロセッサの外部メモリトランザクションの粒度であり、メインプロセッサの内蔵キャッシュにおけるブロックサイズと同じである。MBPが構成するキャッシュシステムはハードウェア分散共有メモリシステムであるにもかかわらず、ソフトウェア分散共有メモリと同様にメインメモリをキャッシュ領域として使用可能である。このキャッシュシステムを実現するために、MBPは世界に先駆けて二段階のアドレス変換方式を採用している。ハードウェア分散共有メモリシステムのスケーラビリティを向上するのに重要となる「階層マルチキャストとAckコンバイニング」もMBPの機能の一部として開発されている。これはマルチキャストメッセージに対するAcknowledge-message (Ack)を効率良く回収する方法である。この技術によりマルチキャスト通信の発信元におけるAck回収ボトルネックを解消することができる。

 第3章はソフトウェア実装の中粒度通信同期機構であるMBCFの開発背景、基本概念、基本動作が述べられている。MBCFは、普及品のネットワークインタフェースカードを利用する機構であり、MBPよりも大きな粒度で通信同期が実行される。このため、ネットワークやバスの使用効率を細粒度通信のMBPに比べて大幅に改善することができる。MBCFはネットワークインタフェースの受信割り込みルーチン内において、通信パケット内に含まれた通信対象タスクと操作対象アドレスの情報を利用して、直接ユーザタスクのメモリ空間を操作してメモリベース通信同期を実行する。このアドレス情報を活用した処理方式によって、無駄なデータコピーを1回も発生させない。メモリやタスクの保護はメインプロセッサのメモリ管理機構の流用により、新たな付加ハードウェアを必要とせず、ソフトウェアオーバヘッドを非常に抑えて実現される。

 第4章はMBCFによって実現される機能の詳細が述べられている。取り扱うデータの粒度の差はあるが、本章において記述される機能はすべてのメモリベース通信同期機構に共通のものである。メッセージパッシング型の通信をユーザメモリ空間で実現するMBCF_FIFOや保護されたアクティブメッセージと同じ働きをするMBCF_SIGNALも機能と動作が紹介されている。

 第5章はMBCFの高速実装方式に関する議論とMBCFの定性的な他通信同期機構との比較が提示されている。キャッシュを活用したプログラミングテクニックや高性能マイクロプロセッサのTLB等の内蔵機構を活用して、MBCFは非常に低オーバヘッドで実装可能である。また、定性的にMBCFはメッセージパッシング型の通信機構よりも自由度が高く、この自由度の高さのためのペナルティがほとんど存在しない。このため、MBCFの方がシステムが提供する通信同期機構として優れている。アクティブメッセージとMBCFとの比較では、アクティブメッセージがユーザプログラムを受信割り込みで直接走らせるため、保護と仮想化のオーバヘッドによってMBCFよりも実装コストが大きくなることを示している。この他にもFast MessageやPMと言ったソフトウェア実装の高速通信機構との比較を行い、MBCFがこれらの既存高速通信機構よりも定性的に優れていることを明らかにしている。

 第6章はMBCFの実装例として、ethernet上へのMBCFシステムであるMBCF/Etherの実装方式とその実証実験について述べられている。1000BASE-SXとULTRA 60の組合せにおける性能測定実験の結果では、最大80.92MB/secのデータ転送能力と9.6μsecの片道レイテンシを達成した。最大転送能力が1000BASE-SXの理論値の1Gbit/sec(125MB/sec)に及ばないのはULTRA 60のハードウェア的な制約から来るものである。市販OSのTCP/IPとのレイテンシの比較では約10倍の性能(1/10の遅延時間)を達成している。

 第7章では中粒度のメモリベース通信同期機構のための新しいソフトウェア分散共有メモリ構成法について提案している。MBCFは中粒度のソフトウェア実装の通信同期機構であるため、従来のソフトウェア分散共有メモリ方式を使った場合には、高い頻度のページトラップ発生によるオーバヘッドコストから逃れられない。そこで、ページトラップの流用という従来のソフトウェア分散共有メモリの常識を捨てた新しい方法論を提案している。それは、ユーザレベルでキャッシュエミュレーションを行うコードを最適化コンパイラによって元プログラムに挿入し、本来のコードとキャッシュエミュレーション用に挿入されたコードを一緒にして徹底的な最適化を施す方法である。MBCFと新方式を適用したソフトウェア分散共有メモリが開発され、これに対応した最適化コンパイラが実際に研究開発されている。その結果、最適化によって多くのプログラムでは通信粒度を大きく改善できることが実証実験によって示されている。

 第8章ではハードウェア実装された中粒度のメモリベース通信同期機構について議論している。通信処理や通信に伴う暗号処理をメインプロセッサから肩代りするネットワークインタフェースアーキテクチャMBP2をMBCFに基づいて考案し、そのプロトタイプであるMBP2Pの開発を行っている。開発期間の短縮のために、MBP2Pはマルチチップ構成を採り、市販LSIと大規模field programmable gate arrayを組み合わせて開発されている。MBP2PはTLBを内蔵しており、ユーザタスクから直接DMAによってパケットを送信することが可能であり、受信時は直接ユーザタスク内のメモリにパケットの内容を反映させることができる。MBP2は当初の予定通りメインプロセッサの負荷を大幅に軽減することに成功したが、MBCFよりもレイテンシが大幅に悪化した。この原因は市販組込マイクロプロセッサにある。市販組込プロセッサは様々な速度低下要因を持っており、同一クロック周波数のメインプロセッサの数分の一程度の実力しかないことが明らかになった。

 第9章では、本論文で提案したメモリベース通信同期機構とソフトウェア分散共有メモリの構成方式の特徴をまとめる。MBCFに関する研究の今後の展開に関し言及し、そして、MBP2アーキテクチャのような用途に使用可能な高性能汎用組込マイクロプロセッサの研究開発について言及している。

 以上、本論文は並列分散処理にとって非常に重要な通信同期方式にMBCS方式という新しいアプローチを導入し、大きく異なる三つの実現形態に関して具体的に機構を設計し深く議論している。利用可能なメモリ空間を複数ノードに拡大しようという従来の単純な分散共有メモリの考え方ではなく、MBCS方式は通信同期サブシステムを汎用性を維持しつつ高速化を達成するために共有メモリの考え方を適用している。このMBCS方式は計算機科学にとっても非常に意義のあるアプローチである。よって本論文は理学博士を与えるにふさわしいものであると審査員全員一致で判定した。なお、研究成果の大きな部分は同氏に寄与によるものであり、共同研究者から、学位論文の内容として使用することの承諾を得ていることを確認している。

UTokyo Repositoryリンク