学位論文要旨



No 128479
著者(漢字) 荒川,淳平
著者(英字)
著者(カナ) アラカワ,ジュンペイ
標題(和) データ管理のための増加対応力に優れた分散ファイルシステム
標題(洋)
報告番号 128479
報告番号 甲28479
学位授与日 2012.03.22
学位種別 課程博士
学位種類 博士(情報理工学)
学位記番号 博情第390号
研究科 情報理工学系研究科
専攻 創造情報学専攻
論文審査委員 主査: 東京大学 教授 稲葉,雅幸
 東京大学 教授 石塚,満
 東京大学 教授 平木,敬
 東京大学 教授 江崎,浩
 東京大学 准教授 新城,靖
 東京大学 講師 笹田,耕一
内容要旨 要旨を表示する

情報化社会といわれる現代において,データは極めて重要な存在である.文章,画像,音楽,映像など,ありとあらゆるコンテンツがデジタル化され,電子データとして扱われている.それらのデータは私たち社会の所産であり,価値をもつ大切なものである.まさに,現代社会におけるデータは「財産」といってよいであろう.

したがって,データを管理することは財産を管理することであり,極めて重要だと言える.しかし,データの重要性が増し,私たちが日々扱うデータの種類や量が増えるにつれ,多くの問題やリスクが顕在化してきた.代表的なリスクは,装置の故障やユーザの誤った操作,コンピュータウィルスなどによるデータの損失である.

また,データ管理は個人にとどまる性質のものではない.私たちはデータを共有することで情報やアイデアを共有する.私たちはデータの漏洩を防ぎつつも,効率よく様々な人々とデータを共有しなければならない.

このように,今日,データ管理に対して私たちが要求する,あるいは要求されることは多岐にわたる.このことは,データ管理という行為自体が私たちを煩わすという事態をも引き起こしている.

この多岐にわたるデータ管理の問題に対して,本研究ではデータを1)保管する,2)共有する,3)利用する,という3つの視点から問題点を整理し,それぞれについて解決策を示す.

本研究では,1)を分散ファイルシステムによって,2)を分散アクセス制御機構によって,3)をファイルシステムフレームワークによってそれぞれ解決した.そして,この分散ファイルシステム,分散アクセス制御機構,ファイルシステムフレームワークの3つを統合したデータ管理システムによって,データ管理の抱える,多岐にわたる様々な問題を解決した.

1番目の視点であるデータを「保管する」上で最も重要なことは,データが失われないようにすることである.ハードディスク故障によって「現在」のデータが失われることは広く知られている.また,ユーザの誤った操作などによって,必要な「過去」のデータが上書きや削除によって失われることも少なくない.そして,データを保管するシステムが障害等で利用できなくなった場合,本来であれば利用され保存されていたはずの「未来」のデータが失われたことになる.

本研究では,分散冗長化によって「現在」のデータ損失を防ぎ,ファイルシステムにバージョン管理機能を統合することで「過去」のデータ損失を防ぎ,P2P型のアーキテクチャを採用することで単一障害点を排除し「未来」のデータの機会損失を防ぐ分散ファイルシステムを開発した.また,本研究では,ノード数に依らず一定の通信コストでデータの参照や保存を可能にすることで,データ量の増加に対応した.

ファイルシステムは多くの優れた機能を提供するが,それは決してデータ管理に必要なすべての機能ではあり得ない.データ種類や利用するデバイスの種類などが増加する限り,必要なデータ管理の機能も増加し続ける.したがって,データ管理の基盤としてとらえた場合,分散ファイルシステムは新しい機能の追加や既存機能の改良が容易でなければならない.本研究では非常にコンパクトに設計・実装することで機能数の増加に対応した.

本研究では,個々の手法としては既知の,分割とCASによるブロック管理,追記のみのエントリ管理,Consistent Hashingを用いた分散と冗長化などを組み合わせることでコンパクトな分散ファイルシステムの構成方法を示した.また,本研究では,ローカルファイルシステムやウェブサーバの通信スタックなどを活用した実装により,実際のコード規模も小さく抑えられることを示した.

2番目の視点である「共有する」は,企業やグループでの活動におけるデータ管理の中核的な機能である.データの共有は,共有相手のユーザに,共有したいデータに対して許可する操作が設定されることで実現される.この時,データに対する操作の可否を判断して制御するのがアクセス制御機構である.

しかし,既存の集中管理型のアクセス制御機構では,共有を行う際に必要となる,新しいユーザの登録やアクセス権限の設定に,特別なユーザ(管理者や所有者)の関与が必要である.このことは,データ量やユーザ数の増加に対して,登録・設定のための操作コストが一部のユーザに集中することを意味する.

そこで,本研究では権限証明書に基づく分散管理型のアクセス制御機構によって,ユーザによる権限の委譲を実現し,ユーザ数の増加に対応した.権限証明書はユーザ間の権限の委譲によって連鎖的に発行される.このため悪意あるユーザが見つかった場合などは,不正ユーザの権限証明書を無効化することで,不正ユーザのみならず,その不正ユーザが直接的・間接的に関わっていた権限委譲に基づくすべてのアクセスを網羅的に遮断することができる.

しかし,既存の分散アクセス制御機構では,パスワード認証が利用できないことや権限変更に副作用が伴うことで,既に広く普及している集中管理型のアクセス制御機構でのユーザ体験が活かされず,むしろ分散管理型のアクセス制御機構を利用する妨げとなっていた.そこで,本研究では新たに,公開認証情報を用いた認証,ノード秘密鍵による機構による署名,証明書の無効化と更新の区別を提案することで,既存のユーザ体験を維持したまま利用できる分散アクセス制御機構を提案した.

3番目の視点である「利用する」は,ユーザが実際にデータ管理を行う際に生じる問題に焦点を当てる.最大の問題は「めんどくさい」である.私たちの仕事はデータ管理をすることではなく,データを利用して,または新たにデータを作り出して,仕事上の目的を達成することである.にもかかわらず,データ管理を取り巻く現状は,私たちに多くのことを要求する.定期的にバックアップを取り,個人情報は暗号化し,改訂される書類は古いデータをコピーして残しておく,などである.これでは扱うデータ量の増加や必要なデータ管理機能の増加に対応できているとは言い難い.

そこで本研究では,ファイルシステムをデータ管理システムをインターフェイスとすることで,ユーザにデータ管理を意識せずに実施させることを提案した.ユーザは普段どおりにファイルを保存するだけで暗号化などの必要なデータ管理が自動的に行われる.これにより,データ量や機能数の増加に対応し,データ管理における「めんどくさい」問題を解決することが可能となる.

しかし,従来ファイルシステムは,カーネル空間でOSに依存した形で実装されていたため,開発が困難であった.そこで本研究では,OSごとに存在しているユーザモードファイルシステムライブラリを統合することで,ファイルシステムを,ユーザ空間で,OSに依存せず,モジュールの組合せで実装可能にした.また,ファイルシステムピボット方式を新たに提案することで,既存実装の再利用を容易にした.

以上で述べた3つの視点から本研究ではデータ管理の問題点を整理し,解決策を提示してきた.さらに,解決策を提示するだけではなく,本研究では常にソフトウェアとして研究内容を実装し,ユーザに利用してもらうことで多くのフィードバックを得てきた.

そして,本研究の成果である分散ファイルシステム,分散アクセス制御機構,ファイルシステムフレームワークをすべて統合したデータ管理システムは企業向けオンラインストレージサービスやストレージパッケージとしてすでに実用されている.

本研究では,データ管理の抱える数多の問題を1)保管する,2)共有する,3)利用する,という3つの視点から整理し,それぞれについての問題点を解決する仕組みを提示した.1)については,「現在」・「過去」・「未来」のデータを失わず,データ量の増加にもノードの追加で対応できる機能拡張性に優れたコンパクトな分散ファイルシステムを提案した.2)については,ユーザ数やデータ量の増加に伴い増加する登録・設定コストが分散でき,柔軟で強力なアクセス制御を可能にするユーザビリティに優れた分散アクセス制御機構を提案した.3)については,データ管理をユーザに意識させずに,必要に応じてデータ管理の機能をモジュールとして組み合わせることで拡張可能なファイルシステムフレームワークを提案した.そして,それらを統合したデータ管理システムが実用化されたことで,その有用性を確かなものにした.

審査要旨 要旨を表示する

本論文は,「データ管理のための増加対応力に優れた分散ファイルシステム」と題し,データ管理で問題となるデータ量,ユーザ数,機能要求の増加に対応できる分散ファイルシステムの構成法について明らかにしている.データを保管する ,共有する,利用するという課題について,それぞれコンパクトな分散ファイルシステム,ユーザビリティに優れた分散アクセス制御機構,拡張可能なファイルシステムフレームワークを提案している.これらを統合した分散ファイルシステムは商用システムとして実際に実用化されており,この実用化によって得られた知見についてまとめている.

本論文は6章からなる.

第1章「緒論」では,現在の情報化社会におけるデータ管理の重要性について述べている.また,データ管理をする上で問題になるデータ量の増加,ユーザ数の増加,機能要求の増加といった増加要求に関する定義を行い,本論文が扱う問題を規定している.

第2章「コンパクトな分散ファイルシステム」では,データを保管する観点から要件を定義し,それらを満たすコンパクトな分散ファイルシステムの構成手法を明らかにし,具体的に分散ファイルシステムyassを設計・開発し,評価を行っている.バージョン管理機能を持つ,単一障害点を排除する,OSや特殊なハードウェアに依存しない,導入・構築や機能拡張が容易である,といった多種な課題に対して,追記のみのエントリの保存方式やConsistent Hashingなどの既知の要素技術を組合せ,ウェブサーバ上に実現するといった構成の工夫により,非常にコンパクトなシステムとすることで解決している.データの一貫性モデルとして,要求応じて選択可能なBASE版とACID版の2つを設計し,BASE版はPHP,ACID 版はScalaを用いて開発し,特定のハードウェアやOS に依存しないyassの2実装を示している.実装を用いてスケーラビリティの評価を行い,結果としてデータ量の増加に対してもノードの追加で対処できることを確認している.また,導入に必要なコンポーネント数も少なく,機能拡張や導入・設定コストを低く抑えていることを確認している.

第3章「ユーザビリティに優れた分散アクセス制御機構」では,分散アクセス制御機構を実世界で広く利用するためにユーザ体験に着目したユーザビリティの改良を提案している.単一障害点を持たず,性能がスケールアウトするアクセス制御機構を構築するには分散アクセス制御機構を用いることが考えられるが,証明書による権限委譲といった機能や可用性やスケーラビリティの面で優れる反面,既存研究では公開鍵認証以外が利用できない,自律的な認証情報が更新できない,権限変更に副作用が伴うといった,実際に利用するときに問題になる点を抱えていた.そこで,本章では新たに公開認証情報を用いた認証,ノード秘密鍵による機構による署名,証明書の無効化と更新の区別を盛り込むことで,これらユーザビリティに関する問題を解決する手法を提案している.また,提案機構でCRL (Certificate Revocation List) 及びCUL (Certificate Update List) を分散管理する方法についても設計を示し,高い可用性とスケーラビリティの実現方法を示している.提案機構のシミュレーションプログラムおよびプロトタイプを実装して評価を行い,ノード数の増加によって提案機構の性能が向上すること,計算機の台数によってスケールアウトすることを確認している.

第4章「拡張可能なファイルシステムフレームワーク」では.既存のソフトウェア資源を有効に活用でき,OS に依存しない拡張可能なファイルシステムフレームワーク Decas の設計と実装,およびその評価を述べている.従来のファイルシステムが抱えていた,ファイルシステムがカーネル空間で実装されていること,モノリシックな構造をしていること,OSに依存しているといった問題点を解決するため,ファイルシステムをユーザ空間で拡張可能とする構成,ファイルシステムピボット方式を提案してモジュールの組み合わせで拡張する方式,OSに依存せずに実現できるフレームワークの設計と実装について述べている.ベンチマークによる性能の評価を行い,オーバーヘッドは平均して8.3% 以内に収められることを確認している.

第5章「データ管理システムの応用」では,前章までで述べた分散ファイルシステム,分散アクセス制御機構,ファイルシステムフレームワークを統合したデータ管理システムについて,実用化を目指す上で重要となったポイントをまとめている.また,実際に商用システムとして応用されている3つの例を示し,本研究で開発したシステムの実用性を述べている.

第6章「結論」では,本論文の貢献をまとめ,今後の展望を論じている.

以上のように,本論文はデータ管理についての,データ量,ユーザ数,機能の追加要求といった増加要求に対応できる,コンパクトな分散ファイルシステム,ユーザビリティに優れた分散アクセス制御機構,拡張可能なファイルシステムフレームワークの構成法を明らかにし,さらにこれらを統合したデータ管理システムの応用事例を述べ実用性を実証しており,この分野に少なくない貢献を果たしている.すなわち,本研究は情報理工学に関する研究的意義と共に,情報理工学における創造的実践に関し価値が認められる.

よって本論文は博士(情報理工学)の学位請求論文として合格と認められる.

UTokyo Repositoryリンク