学位論文要旨



No 122814
著者(漢字) ルォン ディン フォン
著者(英字) Luong Dinh Hung
著者(カナ) ルォン ディン フォン
標題(和) 耐ソフト・エラーのキャッシュ・アーキテクチャ
標題(洋) Soft-Error Tolerant Cache Architectures
報告番号 122814
報告番号 甲22814
学位授与日 2007.03.22
学位種別 課程博士
学位種類 博士(情報理工学)
学位記番号 博情第144号
研究科 情報理工学系研究科
専攻 電子情報学専攻
論文審査委員 主査: 東京大学 助教授 田浦,健次朗
 東京大学 教授 坂井,修一
 東京大学 教授 浅見,徹
 東京大学 教授 喜連川,優
 東京大学 教授 相田,仁
 東京大学 助教授 五島,正裕
内容要旨 要旨を表示する

The problem of soft errors caused by radiation events are expected to get worse with technology scaling. This thesis focuses on mitigation of soft errors to improve the reliability of memory caches. We survey existing mitigation techniques and discuss their issues. We then propose 1) a technique that can mitigate soft errors in caches with lower costs than the widely-used Error Correcting Code (ECC), 2) a technique to mitigate soft errors in Content Addressable Memories, and 3) a cost-effective cache architecture achieving both variation-induced defect and soft-error tolerance.

ECC is widely used to detect and correct soft errors in memory caches. Maintaining ECC on a per-word basis, which is preferred for caches with word-based access, is expensive. We propose Zigzag-HVP, a cost-effective technique to detect and correct soft errors for such caches. Zigzag-HVP utilizes horizontal-vertical parity (HVP). Basic HVP can detect and correct a single bit error (SBE), but not a multi-bit error (MBE). By dividing the data array into multiple HVP domains and interleaving different domains, a spatial MBE can be converted to multiple SBEs, each of which can be detected and corrected by the corresponding parity domain. Vertical parity update and error recovery in Zigzag-HVP can be performed efficiently by modifications to the cache data paths, write-buffer, and Built-In Self Test. Evaluation results indicate that the area and power overheads of Zigzag-HVP caches are lower than those of ECC-based ones.

We propose STCAM, a soft-error tolerant Content-Addressable Memory (CAM). Soft-error mitigation in a CAM is difficult due to the un-availability of data outside the cell array in a CAM access. Since CAMs are used in several components of a processor, making those CAMs being resilient against soft errors is required to attain high processor's reliability. STCAM can successfully detect and correct false hits and false misses caused by soft errors in a CAM. This is achieved through subdividing a CAM and providing backup checking for cases the input tag is partially matched in the CAM. An original encoding scheme is proposed to reduce the frequency of backup checking. Modifications to support STCAM do not increase access latency. Performance degradation incurred by backup checking is very low.

We present SEVA, a soft-error- and variation-aware cache architecture. As memory devices are scaled down, the number of variation-induced defective cells increases rapidly. Combination of ECC, particularly Single-Error Correction Double-Error Detection (SECDED), with a redundancy technique can effectively tolerate a high number of defects. While SECDED can repair a defective cell in a hardware block, the block becomes vulnerable to soft errors. SEVA exploits SECDED to tolerate variation-induced defects while preserving high resilience against soft errors. Information about the defectiveness and data dirtiness is maintained for each SECDED block. SEVA allows only the clean data to be stored in the defective blocks. An error occurring in a defective block can be detected and the correct data can be obtained from the lower level of the memory hierarchy. SEVA improves both yield and reliability with low overheads.

Having memory caches to be tolerable from soft errors is essential for attaining high processor's reliability. Incurring low area and power overheads, Zigzag-HVP allows support for soft-error tolerance to be more affordable and therefore pervasive. STCAM increases in the coverage of soft error protection in a processor. Finally, SEVA shows that soft-error tolerance for reliability and defect tolerance for yield can be achievable with reasonable costs, paving the way for successful SRAM designs in future process technology.

審査要旨 要旨を表示する

 本論文は,"Soft-Error Tolerant Cache Architectures"(耐ソフト・エラーのキャッシュ・アーキテクチャ)と題し,全体で6章から成る.本論文は,近未来のディジタルLSIにおいて大きな問題となるキャッシュのソフト・エラーについて,これを大幅に緩和する手法を提案し,設計・シミュレーションによる評価によってこれを検証したものである.近未来のLSIは,高い集積度と高いクロック周波数によって飛躍的な性能向上が期待されているが,電源電圧の低下,線幅の縮小によって,デバイスとしてのソフト・エラー耐性が低くなっており,これがLSI全体の信頼性を損なう要因となると予測されている.本論文は,以下に示す要素技術・システム技術によってこれを解決し,真に高い信頼性をもつキャッシュ・アーキテクチャを提案するものである.

 第1章"Introduction"は,研究の背景・目的を述べるとともに,本論文の構成についてまとめている.

 第2章"Existing Work on Soft-Error Tolerance in Memory Caches"は,プロセスレベル,回路レベル,アーキテクチャレベルのそれぞれについて,本論文に先行する技術を紹介し,これを検討することで,近未来のソフト・エラーに関する課題を明らかにしたものである.先行技術によって解決した点を要約した後,オーバヘッドの軽減,CAMのソフト・エラー対策,セルに欠陥がある場合のソフト・エラー対策に未だ大きな課題があることを示している.

 第3章"Zigzag-HVP: Soft-Error Mitigation in Caches with Word-based Access"では,1語ごとにECCを設けるよりも費用対効果に優れたソフト・エラー緩和方式を提案評価した.本方式では,2次元にパリティを配し,データをジグザグに配置することで,信頼性の高いキャッシュが実現される.さらに,評価の結果,ECCを用いたものよりも面積・電力を大幅に削減できることが確認された.

 第4章"STCAM: Soft-Error Tolerant Content-Addressable Memory"は,CAMで生じるソフト・エラーの悪影響を緩和する方式を提案・評価したものである.キャッシュでは,本当はヒットしているのに,タグ領域のソフト・エラーが原因でミスになる場合が起こる.これを防ぐために,本論文ではタグ領域をバンクに分割し,どちらかのバンクの値がタグに等しい場合は,他方のバンクの値をECCによって検証する,という手法を提案した.設計評価・シミュレーション評価によって,本方式は,キャッシュのレーテンシを増大させることなく,実行サイクル数をほとんど増加させることなく,信頼性を大幅に向上させられることが示された.

 第5章"SEVA: Soft-Error- and Variation-Aware Cache Architecture"は,セルに欠陥があるなどの理由によって,ソフト・エラー耐性が低くなったキャッシュについて,耐性を落とさない技術を提案・評価している.ここで提案したSEVAという手法によって,歩留まりと信頼性が同時に向上することが示された.

 第6章"Conclusion"は,結論と今後の課題について述べている.

 以上これを要するに本論文は,近未来のディジタルLSIにおいて大きな問題となるキャッシュのソフト・エラーについて,3つの新規性に富む優れた方式提案を行い,綿密なシミュレーション評価と設計評価によってその有用性を検証しており,電子情報学の発展に寄与するところが小さくない.

 よって本論文は博士(情報理工学)の学位請求論文として合格と認められる。

UTokyo Repositoryリンク http://hdl.handle.net/2261/25849