糾錯代碼 (ECC) 不僅可以增加存儲密度和帶寬,還能保持功耗中性和可靠性。本白皮書將詳細介紹個中原因以及美光 LPDDR4/LPDDR4x 如何實現 ECC 的承諾。
LPDDR 存儲的發展歷程
隨著新的移動設備應用不斷增多,手機和平板電腦設計師始終面臨這樣一種挑戰,那就是如何在不影響電池續航時間的情況下增加存儲吞吐量。
2014 年推出的 LPDDR4 標準與 LPDDR3 相比,數據傳輸速率高出一倍,工作電壓有所降低,既能提高性能又能延長電池續航時間,使移動用戶的體驗得到顯著改善。2016 年推出的
LPDDR4x 可提供比標準LPDDR4 存儲高出多達 20% 的能效,進一步延長了電池續航時間。
圖 1:移動平臺的峰值吞吐量
LPDDR4 存儲對于可穿戴電子設備之類的物聯網應用非常重要,因為功耗是這些應用的關鍵設計約束因素之一。對于汽車應用,LPDDR4 的高帶寬和功耗優勢使之成為車載子系統(如中央控制臺和高級駕駛員輔助系統(ADAS))的理想選擇。
DRAM 發展面臨的挑戰
LPDDR4 規范旨在適應DRAM 加工技術的不斷發展,其中包括縮小存儲單元的尺寸。為了在更小的空間內保持相同的單元電容,需要運用更復雜的制造工藝。隨著單元尺寸的縮小,單元接入設備的功能弱化,位線和列線的電阻逐漸增加,而這兩點都會導致每個存儲單元達到最高蓄能的用時增加。由于這些因素的影響,制造商要在過渡到新工藝的同時保持良率和可靠性會越來越困難。
單比特錯誤
限制 DRAM 良率的主要因素是單比特錯誤。在這些錯誤中,有一小部分可能是“硬”故障位,即比特位卡在 1 或 0。此類故障都需要使用冗余元素進行修復。當然,大多數情況下發生故障的單比特位都很微不足道;只要它們的刷新頻率足夠高或寫入時間較長即可正常工作。
修復這些位(在陣列中僅占很小比例)需要增加冗余元素的數量,而這會導致芯片的尺寸增大、復雜性提高。需要注意的是,DRAM 寫入恢復時間 (tWR) 以及 64ms 或 32ms 刷新規范的設定非常保守,旨在使大部分弱位都能通過。若沒有這些弱位,刷新和 tWR 規范就可以大幅放寬,從而帶來性能和功耗方面的優勢。
可變刷新時間位
隨著各項工藝的縮減,另一個日益普遍的現象是可變刷新時間位(即 VRT 位)故障。這是一種偶然發生的隨機單比特故障,發生的原因在于 DRAM 加熱(即執行焊接回流以裝配插件)后,它們的刷新時間會發生變化。盡管這些VRT 位較為罕見,但若在 DRAM 通過制造商的最終測試之后發生此類故障,將會非常麻煩,因為此時修復已經非常困難甚至無法進行。
為了降低封裝后維修或報廢零件的成本,保持可接受的現場故障率,DRAM 制造商目前會在比規范要求嚴格得多的條件下測試存儲位。這樣做的目的是預先找到可能發生故障的VRT 位。
雖然這種測試在很大程度上是有效的,但卻會降低良率。更加嚴格的測試可能導致嚴重的“過度殺傷”,因為在識別真正的 VRT 芯片的過程中,將有大量實際上并不會產生 VRT 故障的芯片被丟棄。此外,任何測試都不是完美的,有些 VRT 可能逃脫,最后仍會到達 OEM 那里。鑒于 VRT 位一直以來造成的這些問題,存儲制造商需要實施新技術來提高未來設備的可靠性并控制其成本。
縮小存儲單元導致存儲制造商面臨的挑戰加劇。存儲制造商需要實施新技術來提高未來設備的可靠性并控制其成本。ECC 就是這樣一種技術,美光科技將ECC 應用到了移動LPDRAM 中。
ECC 技術提供了一種有效的方法來消除隨機單比特錯誤, 從而提高系統可靠性。
糾錯代碼的優勢
糾錯代碼 (ECC) 是一項成熟的存儲技術,被廣泛用于各種應用以提高可靠性。ECC 利用漢明碼為存儲
IC 提供更高水平的冗余。漢明碼會生成少量奇偶校驗位,與用戶數據一起存儲在存儲陣列中。借助漢明碼,可以用少量比特位來保護更長的數據字。例如,美光科技的 LPDDR4 設備使用 8 個奇偶校驗位為 128 位數據字提供糾錯。這些奇偶校驗位可用于檢測和糾正 128 位數據字中的單比特錯誤。
糾正單比特錯誤
每次數據寫入存儲時,相關的奇偶校驗位便會隨之更新。讀取數據時,DRAM 會驗證整個 136 位
(128 個數據位+ 8 個奇偶校驗位)代碼字的完整性。如果檢測到單比特故障(例如,裝配后出現一個 VRT 位),ECC 將自動糾正該錯誤。鑒于同一代碼字中出現兩個單比特錯誤的可能性極小,可以說ECC 技術提供了一種有效的方法來消除隨機單比特錯誤。
由于 ECC 是一項被動技術,因此它會自動檢測并糾正錯誤,無需開發人員干預。此外,糾正過程對系統的其余部分完全透明。
降低總體擁有成本
在 LPDDR4 中加入 ECC 的另一個優勢在于,從功耗、性能和成本角度考慮,它可以降低總體擁有成本 (TCO)。例如,在 LPDDR4 中加入 ECC 會使有功功率略有提高(約 5-7%)。這是因為存儲和處理
ECC 校驗位奇偶所需的存儲位和邏輯電路增加了。同時,ECC 可以大幅降低待機和刷新功耗。設備處于睡眠模式時,基于 DRAM 的存儲需要定期刷新,以替換各個存儲單元中的泄漏電流。ECC 的使用可以增加可靠性,從而使 DRAM 能夠降低自刷新率。對大多數低功耗應用而言,面對 ECC 帶來的可靠性提升及出色的待機效率,有功電流的小幅增加已經無關緊要了(參見圖 2 和圖 3)。
圖 2:LPDDR4 功耗對比(低功耗使用案例)
圖 3:LPDDR4 功耗對比(中高功耗使用案例)
高效節能
采用ECC 的LPDDR4 的出色能效還有助于 OEM 在遷移或過渡到新一代移動設備時實現功耗中性;換言之,他們可以提供更強大的功能,而不需要更大的電池,也不會對工作壽命產生負面影響。
DRAM 的故障率取決于多種因素,包括 SOC、散熱設計、DRAM 密度、DRAM 工廠工藝和測試。單比特錯誤是最常見的已確認故障根源。ECC 能夠有效處理單比特故障模式,顯著增強系統可靠性和早期使用期限故障率 (ELFR) 性能。
在性能方面,采用ECC 技術會使讀取延遲略有增加,但仍在指定讀取延遲值的范圍之內。此外,為了使 DRAM 時間能夠計算奇偶校驗位,還需要增加寫入延遲。此時間已體現在18ns 的tWR 規范中(與適用于LPDDR3 的 15ns 規范相比)。
有些業內人士已考慮遷移至 45ns 的 tWR 規范以解決擴展問題。納入 ECC 技術可以減少在 LPDDR4 規范中增加此時間的必要性。除了可以彌補讀取延遲少量增加造成的性能損失,免于增加tWR 還會帶來其他好處。
ECC 還需要小幅增加芯片大小,來容納奇偶校驗位和 ECC 邏輯。不過,它為 OEM 帶來的高可靠性以及為 DRAM 制造商帶來的高良率和低測試成本足以彌補這部分成本。
另外,ECC 還可以改善 LPDDR4 在高溫下的性能。溫度每升高 10 ℃,DRAM 的刷新要求會增長約一倍,DRAM 的標準最高溫度是 85 ℃。移動 DRAM 也不例外;盡管通常支持高達105 ℃ 的工作溫度,但指定刷新率針對的溫度是 85 ℃。當工作溫度為 85-95 ℃ 時,存儲控制器提供的刷新率(tREFI) 必須增加一倍;當工作溫度為 95-105 ℃ 時,則必須增加三倍。這意味著,在 95-105 ℃ 下工作的 8Gb LPDDR4 存儲需要用 18% 的時間運行全存儲體刷新命令(這部分時間不能用來執行實用功能),而且還會消耗大量電源。或許可以在后臺執行單存儲體刷新,但刷新過程幾乎不能間斷。當然,隨著未來的設備密度越來越高,這種情況會變得更糟。
由于設定的刷新率非常保守,采用ECC 的 DRAM 大約可按規范中所規定刷新率的四分之一進行刷新。這樣可以節約大量能耗,尤其是在高溫條件下。除此之外,它還能減少上述性能影響,盡管這會導致目前的JEDEC 規范發生變化。
對于工作溫度需要達到 105 ℃ 以上的汽車或其他應用,采用ECC 的DRAM 可能是唯一可行的選擇。采用 ECC 的 LPDDR4 設備可以在 115-125 ℃ 的溫度范圍內正常工作,并能提供非 ECC 設備在 95-105 ℃ 溫度范圍內提供的刷新性能。此溫度范圍正是使用了邊緣存儲解決方案(microSD 卡)的企業級部署所具備的典型系統特征。
總結
為了跟上當今移動、汽車和物聯網應用的發展步伐,開發者和存儲制造商持續面臨著如何在增強存儲性能的同時兼顧功耗和可靠性的挑戰。縮小芯片尺寸給制造工藝帶來的難題往往會影響存儲可靠性,使得滿足上述要求變得更具挑戰性。
美光科技采用 ECC 技術的 LPDDR4 和 LPDDR4x 存儲提供了一種有效的方法來消除其中一些挑戰,同時為當今的新一代設備提供了高帶寬和功耗優勢。通過采用 ECC,可以自動檢測和糾正單比特錯誤, 從而提高可靠性。待機和刷新功耗有所降低,因而可實現新一代設備所需的低功耗功能。高溫條件 下的性能得到提升,使工作溫度較高的汽車及其他應用可以實現所需的功耗中性。
歡迎聯系您的美光銷售代表,或訪問 micron.com/lpdram,探索采用 ECC 的美光 LPDDR4/LPDDR4x 存儲如何為您帶來實現高性能、低功耗的機會。