学位論文要旨



No 127283
著者(漢字) 王,永坤
著者(英字)
著者(カナ) ワン,ヨンクン
標題(和) SSDを用いた高性能データベースシステムに関する研究
標題(洋) Research on High Performance Database Management Systems with Solid State Disks
報告番号 127283
報告番号 甲27283
学位授与日 2011.03.24
学位種別 課程博士
学位種類 博士(情報理工学)
学位記番号 博情第321号
研究科 情報理工学系研究科
専攻 電子情報学専攻
論文審査委員 主査: 東京大学 教授 安達,淳
 東京大学 教授 喜連川,優
 東京大学 教授 近山,隆
 東京大学 教授 相田,仁
 東京大学 准教授 豊田,正史
内容要旨 要旨を表示する

In this information explosion era, data volumes grow drastically, posing great challenge to the data-intensive applications, such as the database management systems. These data-intensive applications are required to process the huge amount of data quickly. However, in the current hard disk-based storage system, the speed gap between the CPU and hard disks becomes the bottleneck to improve the performance. At this time, the Solid State Disk (SSD) is on the spotlight. The SSD, mainly composed of flash memory, has a significant performance advantage over the traditional hard disk. The read performance of SSD is about two orders of magnitude better than that of hard disk. The sequential write performance of SSD is also much better than that of hard disk. However, the random write performance of SSD is comparable or even worse than that of hard disk, because of the "erase-before-write" design of the flash SSD. Therefore, comprehensive study is required to incorporate the flash SSDs into the existing enterprise database management systems.

In this thesis, I performed a research on the possibility of building high performance database management systems with SSDs. Firstly I provided the basic performance study of the flash SSD. I built a micro benchmark to bypass the operating system buffer cache to get the real performance of flash SSD. Based on the micro benchmark, I also designed a modeling and simulation tool, which is expected to be effective to design a large storage system with flash SSDs. Secondly I studied the performance benefit by incorporating a special technique, the Non-In-Place-Update technique into the IO path. With this technique, the performance of database management systems built on the flash SSDs is improved significantly. Next, I studied the IO behavior along the IO path of flash-based database system, with different IO strategies, different database applications, different enterprise-class SSDs. I then proposed to use the application hint to improve the performance further. I presented the experimental evaluation and analysis. Finally, I conclude the usage of the flash SSD in the database management systems.

審査要旨 要旨を表示する

本論文は「Research on High Performance Database Management Systems with Solid State Disks (SSDを用いた高性能データベースシステムに関する研究)」と題し、英文8章から構成されている。FlashメモリからなるSolid State Disk (SSD)を用いたデータベースにおける高速処理技法の確立を目的とし、SSDの入出力性能諸元を複数の機種を用いて計測、解析すると共に、オンライントランザクション処理の代表的ベンチマークであるTPC-Cを商用およびオープンソースのデータベース上で実行し、トランザクション処理性能および入出力処理性能を、ハードディスク(HDD)を用いた場合と比較、検討し、その結果に基づき、SSDの書込み処理特性に着目すると同時にDB応用処理知識を利用しSSDに適合する入出力管理手法を提案、TPC-C入出力トレースを用いた性能評価により、その有効性を示している。

第1章は、「Introduction (序章)」であり、本論文の背景および目的について概観し、本論文の構成を述べている。

第2章は、「Flash SSD (Flash SSD)」と題し、FlashメモリからなるSSDの概要、デバイス構成と、最近の機種と性能諸元についてまとめている。

第3章は、「Related Work (関連研究)」と題し、SSDを用いたデータベース処理における入出力管理手法とその性能評価、SSDを大容量データ応用処理に適用する手法に関する関連研究をまとめている。

第4章は、「Basic Performance of Flash SSDs (Flash SSDの基本性能)」と題し、SSDの性能を明らかにすべく、三つの異なるSSDとHDDの基本的な入出力性能を実機上で計測し、逐次アクセス、ランダムアクセスの入出力性能を詳細に解析し、SSDの入出力特性を明らかにした。SSDの逐次アクセス性能はHDDと同程度であり、また、Flashメモリを利用しているためSSDはランダム読出し性能は逐次読出しと変わらずHDDと比べ大幅に性能がよいが、ランダム書込み性能は逐次書込みと比較し著しく低い。

第5章は、「Performance Analysis of Flash SSDs Using TPC-C Benchmark(TPC-Cベンチマークを用いたFlash SSDの性能解析)」と題し、処理負荷の高いデータベース応用処理であるオンライントランザクション処理を対象にSSDの詳細な性能解析を行っている。三つの異なるSSDとHDDを用い、商用とオープンソースデータベースにブロックファイルシステム(ext2)とLog-structured File System(LFS)の二つを適用し、代表的なオンライントランザクション処理ベンチマークであるTPC-Cの処理性能を実機で計測し、結果を入出力性能の観点から詳細に解析した。解析結果から、TPC-C処理では書込み処理性能が支配的であることを明らかにし、SSDの利用によりHDDの結果と比較し数倍以上の性能向上が得られることを示した。また、第4章で得られたSSDの基本性能から、HDDの単純な置き換えとしてSSDを利用しても、SSDの性能が十分に活かされていないことを明らかにした。これは、現在のデータベースではHDDに適合した入出力管理手法が実現されているものの、SSDに適した入出力管理手法とはなっていないことを意味する。

第6章は、「IO Management Methods for Flash SSD (Flash SSDのための入出力管理手法)」と題し、SSDの性能を十分に利用するには、第4章で得られた特性、すなわち、ランダム書込みの性能が逐次書込みと比べ低い、ランダム読出しおよびランダム書込みが混在すると入出力性能が低減する、および、書き込み時のFlashメモリ消去オーバヘッド等に着目し、データベース応用処理実行時のランダム書込みを逐次書込みに転換するべく、書き込み遅延(Deferring)、一括データ書込み(Coalescing)、書込みデータの物理アドレス逐次化(Converting)、Flashメモリ消去に適合したブロックアドレス境界適用(Aligning)の4つの手法を考案し、各手法における入出力の流れを詳細に論じると共にSSDを指向した入出力スケジューリングを提案している。また、スケジューリングにより書き込み遅延がDB応用処理性能に影響を及ぼさないようDBとの連携を試み、チェックポイント情報を利用した。

第7章は、「Performance Evaluation of IO Management Methods for Flash SSD(Flash SSDのための入出力管理手法の性能評価)」と題し、第5章で得られたTPC-Cの入出力トレースを用い、第6章にて提案したSSDを指向した入出力管理手法の有効性を検証している。すなわち、4つの書込み管理手法による入出力性能向上の可能性について、計算機資源の制限がない場合を検討し、4つの手法を組み合わせることでTPC-Cにおける書込み処理性能が大幅に向上できることを明らかにした。また、実行時スケジューリングの性能評価として、バッファサイズ、入出力スケジューリングのウィンドウサイズを変化させ、書込み処理性能が大幅に向上出来ることを示すと共に、利用可能な計算機資源が小さい場合にもSSDの書込み性能が向上出来ることを確認した。

第8章「Conclusion(結論)」では、本論文の成果と今後の課題について総括している。

以上これを要するに、本論文は、Flashメモリで構成されたSolid State Disk (SSD)を用いたデータベースシステムにおいて現状の入出力管理手法ではSSDの高速な入出力性能を十分に活かせていないことを明らかにし、SSDの入出力特性に着目、SSDの書込み処理特性に着目すると同時にデータベースシステムのチェックポイント情報を利用しSSDに適合する入出力管理手法を提案、TPC-Cベンチマーク入出力トレースを用いた性能評価により、提案した手法の有効性を明らかにしており、情報理工学上貢献するところが少なくない。

よって本論文は博士(情報理工学)の学位請求論文として合格と認められる。

UTokyo Repositoryリンク http://hdl.handle.net/2261/43997