学位論文要旨



No 128456
著者(漢字) 廖,剣偉
著者(英字)
著者(カナ) リョウ,ケンイ
標題(和) 耐故障のためのプロセスおよびファイルシステムのメタデータの複製機構
標題(洋) REPLICATION MECHANISMS OF PROCESS AND FILE SYSTEM'S METADATA FOR FAULT TOLERANCE
報告番号 128456
報告番号 甲28456
学位授与日 2012.03.22
学位種別 課程博士
学位種類 博士(情報理工学)
学位記番号 博情第367号
研究科 情報理工学系研究科
専攻 コンピュータ科学専攻
論文審査委員 主査: 東京大学 教授 本位田,真一
 東京大学 教授 萩谷,昌己
 東京大学 教授 須田,礼仁
 東京大学 准教授 渋谷,哲朗
 筑波大学 准教授 建部,修見
内容要旨 要旨を表示する

Software-based replication is commonly employed in critical computing systems to achieve higher availability and reliability. With multiple redundant replications, when one of them fails, the other replicas are still able to work without any service interrupts. Correctness criteria for replication-based mechanisms are replica consistency and data integrity (also called constraint consistency). One particularly difficult challenge is to ensure the correctness criteria with minimal overhead. That is because the original is supposed to be hanged during replication to ensure the replica has an integral and consistent state. Moreover, maintaining replica consistency brings about the extra synchronization overhead, as well. The main focus of this thesis is to demonstrate that it is possible to build a fault-tolerant system through software-based replication mechanisms with slight extra overhead. Aiming at critical processes and the crucial metadata of parallel file systems, two replication mechanisms have been proposed, implemented and evaluated separately in this thesis:

One replication mechanism is a checkpoint approach called TIC-CKPT that replicates the running state of real-time and interactive processes to nonvolatile storage. Unlike conventional checkpoint mechanisms, which hang the checkpointed process while replicating its running state, the newly proposed mechanism allows the checkpointed process to continue running without stopping while checkpoints are set to a large extent. Through tracing TLB misses, it blocks the accesses to target memory pages first time while dumping memory address space (the most time-consuming step when setting a checkpoint). At that time, a kernel thread, called checkpointer, copies the memory access target pages to the designated memory buffer, and then resumes the memory accesses. Finally, the memory pages copied in the designated buffer, will be used to construct an integral and consistent running state of the checkpointed process. Moreover, compared with the traditional concurrent checkpoint mechanism, since TIC-CKPT does not operate on the page table of the checkpointed process, it can reduce downtime brought by setting checkpoints much more.

Another replication mechanism that replicates part of files' metadata to the storage servers to achieve high availability and reliability metadata service for parallel file systems, which has active/standby configured metadata servers (MDSs). Since partial replication of metadata is adopted, only a small part of metadata operations trigger metadata synchronization between a metadata server and storage servers. This newly proposed mechanism has been applied in a prototype parallel file system called PARTE, which replicates and distributes a part of a file's metadata to the header sections of the corresponding stripes on the storage servers (OSTs), while the client file system (client) keeps certain sent metadata requests. If the active MDS has crashed for some reason, these backup requests will be replayed by the standby MDS to restore the lost metadata. In case one or more backup requests are lost due to network problems or dead clients, the latest metadata saved in the stripes will be used to construct consistent and up-to-date metadata on the standby MDS. Moreover, the clients and OSTs can work in both normal mode and recovery mode in the PARTE file system. This differs from conventional active/standby configured MDSs file systems, which hang all I/O requests and metadata requests during restoration of the lost metadata. In PARTE, previously connected clients can continue to perform I/O operations and relevant metadata operations, because OSTs work as temporary MDSs during that period.

審査要旨 要旨を表示する

ソフトウェアによる耐故障化技術の代表的なものとして、複製によるデータの冗長化がある。本技術では、冗長化されたデータの更新や、実際に故障が発生した際の複製データの利用において、データの整合性の維持が必要である。そこで、いかにして少ないオーバヘッドで整合性を維持するかが重要な課題となっている。そこで本研究では、2種類の複製に基づく耐故障化手法に対して、従来手法よりオーバヘッドを減少させる手法の改良を提案している。まず1つ目は、リアルタイム並行システムにおいて、稼働中のプロセスの実行状態を定期的に複製する技術である、並行低レイテンシ(Concurrent Low-Latency, CLL)チェックポイントと呼ばれる従来手法を改良した、TIC-CKPT である。2つ目は、並列ファイルシステムにおいて、ファイル名、アクセス権限、および格納場所といったメタデータへのアクセスを制御するメタデータサーバ(Metadata Server, MDS)の冗長化に関する従来手法である、アクティブ・スタンバイ構成方式を改良した、PARTEファイルシステムである。

論文は、以下の4つの章から構成されている。

第1章では、まず本論文の研究背景として、上記2種類の耐故障化に関する従来手法の問題点を挙げ、提案手法による問題点の解決方法の概要を説明している。

第2章では、TIC-CKPT 手法について詳述している。既存チェックポイント手法であるCLLは、チェックポイントされるプロセスのメモリイメージを共有する仮想アドレス空間を生成し、OSが管理しているページテーブル全てを走査してメモリ領域を書き込み不可にする。チェックポイントされるプロセスはCopy on Write(COW)機能を利用することによりメモリ書き込み時には当該ページをコピーして利用する。これにより一貫性のあるメモリ領域を不揮発ストレージにコピーできる。この既存手法に対して、TIC-CKPTは、ページテーブルを走査する代わりに変換ルックアサイドバッファ(Translation Look-aside Buffer, TLB)を操作してメモリ領域を書き込み不可にする。また、チェックポイントされるプロセスのメモリイメージを共有する仮想アドレス空間を生成せずに直接メモリ領域を不揮発ストレージにコピーする。チェックポイントされるプロセスがメモリ書き込みする時、当該メモリ領域をバッファ領域にコピーし、そのデータを不揮発ストレージにコピーするという手法である。また TIC-CKPT 手法は、インクリメンタルチェックポイント、すなわち2回目以降のチェックポイント処理の際に、前回との差分のみ反映させることにより、さらなる性能向上が可能であるとしている。さらに TIC-CKPT 手法の有効性を実験により評価し、これまでの既存研究と比較して改善できていることを確認している。

第3章では、PARTE ファイルシステムについて詳述している。前提として、各ファイルがある固定サイズの断片に分けられ、各断片とその複製が複数のストレージサーバに分散して格納されるような分散ファイルシステムを想定する。その上で、従来のアクティブ・スタンバイ構成では、通常時にアクセスされるアクティブ MDS と、そこから定期的に複製を取る冗長化用のスタンバイ MDS が用意され、前者の故障時には後者を使用するが、可能な限り最新のアクティブ MDSと同じメタデータを提供するために、最新の複製後のメタデータアクセスログを利用した復旧手続きが実行される。そのため、スタンバイ MDS に変更履歴を適用する際にサービスが停止し、また変更履歴の一部が失われる場合があり、変更履歴を正しく反映できない、という問題がある。これに対し PARTE は、ストレージサーバに格納するファイル断片に対して、その断片に関係する必要最小限のメタデータをヘッダとして付加して格納する。その上で、ヘッダ内のメタデータが常に整合性を維持するように管理更新する。これにより、スタンバイ MDSの処理中でも、ヘッダ内のメタデータの参照・更新により、メタデータサービスが継続でき、MDS だけでなくストレージサーバにも最新のメタデータ情報が格納されているので、最新のメタデータ情報としてより正確なものが得られる。さらにPARTE の有効性を実験により評価し、これまでの既存研究と比較して改善できていることを確認している。

第4章では、本論文のまとめを行った後、PARTE における将来の課題として、より正確なメタデータの復旧を挙げている。

本論文は、以上のような独自かつ先進的な成果を挙げたものであり、審査委員会は、その独創性、有効性は、博士号に十分値するものと判断した。

よって本論文は博士(情報理工学)の学位請求論文として合格と認められる。

UTokyo Repositoryリンク