現階段,越來越多的芯片應用于安全或關鍵任務領域,對于芯片缺陷率和良率的要求越來越高。另一方面,對于企業來說,更低缺陷率和更高良率也是降低設計和制造成本的一種方式。
而在初始設計中解決這些問題已經成為降低芯片缺陷率、提高良率的新方向。過去,芯片缺陷和良率問題總是被歸結于晶圓廠。為了確保芯片設計能夠成功流片點亮,企業實施了限制性設計規則 (RDR)。但RDR對于芯片設計生產來講,仍然存在一些挑戰:
RDR增加了太多設計裕量,尤其是在先進工藝節點上。這會對性能、功耗和面積產生負面影響。
為特定應用定制的芯片越來越多,頻繁使用某種類型的先進封裝、不同種類的處理器和存儲器,以及過去未批量生產的獨特架構。
在某些應用中,芯片的預期壽命更長,這意味著在智能手機中原本不是問題的潛在缺陷現在可能需要花更大代價召回。因此,設計團隊開始在設計中加入傳感器,以確定芯片從開啟到預期壽命結束的使用狀態。
如今,設備及產品對芯片都有著不同的要求。例如,與為物聯網消費設備生產的芯片相比,用于汽車傳動系統的芯片具有完全不同的應力和預期。設計團隊需要了解這些芯片隨著時間的推移會如何表現,從環境和使用條件到老化、電熱、應力和變化效應等綜合考量。
“可靠性是當今電路設計和仿真中需要解決的最重要議題之一,”西門子EDA ICVS AMS驗證產品工程總監Ahmed Ramadan Hassan表示。“我們現在擁有的產品在2年、5年或10年后可能不再起作用。例如以特定頻率運行的處理器,由于電路中的每個設備都施加了應力,其頻率可能會在5年或更長時間后下降。對于更大的設計,這種偏壓或溫度方面的應力會降低特定設備的整體性能。因此,芯片可能無法執行預期的功能,或者會降低其預期的功能?!?/p>
設計人員現在必須在電路設計和驗證中考慮可靠性問題,有效地將有關缺陷、良率和可制造性問題從設計到制造流程中一直左右轉移。
“過去,由于缺乏良好的可靠性分析和仿真技術以及可靠性模型,設計人員會過度設計,并留有很多裕量。他們在設計中添加了大量防護帶,來確保該產品至少在保修期內不會出現故障?!?/p>
這種轉變意義重大,但需要從更高層面來看,才能真正了解其包羅萬象?!岸嗄陙恚覀兪冀K努力制造更好、更快、更新的芯片,”Vtool前數字設計經理Aleksandar Mijatovic表示。“當技術處于臨界點時,我們也面臨著一系列問題。有時技術突破邊界卻與預期背道而馳。這意味著如果嘗試使用最大頻率來實現芯片上的最大密度,則很可能在給定技術的可能性邊緣工作,有時可能會破壞芯片功能。但另一方面,這不是工程師的錯。我們都知道這一點,但市場要求更好、更新、更快?!?/p>
經濟負擔也在向左轉移。雖然這種動態在某種程度上一直存在,但隨著芯片制造商努力控制成本,這種趨勢已成為行業關注的焦點。
圖1:每個工藝節點的SoC成本以百萬美元成倍上升。
圖源:Cadence
“當前,一些公司表示,‘我們沒有必要使用最新工藝制程,而是需要可靠的工藝節點。我們不想太頻繁地更換芯片。’這并不是什么新鮮事,只是關注重點正在轉移,” Mijatovic表示?!坝性S多公司正在使用非常過時的技術制造芯片。因為成熟工藝已經足夠好,且經過驗證,并且沒有太多驚喜,整個汽車芯片制造工作都是用成熟技術完成的。在追逐全新的更先進的技術和工藝過程中,我們忘記了很多時候并不需要最新的制程節點。”
對于汽車、醫療、工業和數據中心應用,這些考慮變得更加復雜。在這些應用中,芯片成本急劇上升、對更長壽命的需求、令人生畏的更換成本以及出現問題時的潛在責任掀起了一場風暴。
“當我們開始談論在汽車應用中使用電子產品時,更重要的是要確保此類故障不會發生。確保全面考慮了這些問題,確保汽車電子在更長時間或很短時間內都不會出現問題,” Hassan表示。“此外,這意味著在設計方面需要更嚴謹的安全防護?!?/p>
與此同時,隨著從汽車、機器人、無人機等應用場景的自主性越來越高,可靠性已成為重中之重。
安全問題
與可靠性密切相關的是安全性,尤其是在汽車、醫療、工業和軍用/航空應用方面。
Vtool項目經理Olivera Stojanovic 回憶稱,在一次與安全相關的會議上,最終得出的結論是,若黑客可以在車輛行駛過程中控制汽車駕駛,那么security(面對惡意操作的安全)可能比safety(面對非惡意操作的安全)更重要。
Mijatovic指出,當很少有設備連接到互聯網時,這并非什么大問題?!斑@不僅是我們的個人電腦和手機,還有冰箱、微波爐和暖氣。我們把所有設備都連接入網?!?/p>
越來越多的設備聯網將增加設備的復雜性,這反過來又需要更多的驗證和更好的兼容性。
“從設計驗證的角度來看,可以將提出的每個附加要求都視為規范中的附加層,”Mijatovic表示?!耙幏恫⒉灰馕吨O備必須執行規范中的功能,而是需要保證設備更可靠、準確和安全地運行。所有這些都可以定義為功能,最終也將作為功能實現??墒褂貌灰壮鲥e或不易被黑客入侵的架構,并進行安全檢查。最后,這也適用于協議,以及從一開始就考慮到的安全性或可靠性概念?!?/p>
持續監測
這些可靠性問題不僅限于汽車領域?!拔覀円呀涢_始看到,對于其他應用,可靠性設計和可靠性驗證也變得越來越重要,”Hassan表示。“我們已經看到許多EDA供應商與Compact Model Coalition等組織合作,從電路設計所需的仿真和建模角度解決這種可靠性問題。”
Compact Model Coalition開發了一個用于老化和仿真的標準接口,稱為開放模型接口,為代工廠或任何設計公司的各個團隊創建了一種方法來集成老化模型以處理機械退化等影響、熱載流子注入(HCI)等機制或該接口內的負偏置溫度不穩定性 (NBTI)。它還能夠使用EDA工具運行仿真,并在5或10年后或在該產品的預期使用壽命內捕獲芯片運行狀態。
“這項工作旨在是通過運行這種分析,設計人員將不需要過度設計,因為已經有了這種老化仿真,” Hassan表示?!艾F在他們可以看到并預測其設計在一定年限后的狀態,并且可以將其設計推向極限以獲得性能——但不會留有裕量。當他們開始使用時,實際上可以在其電路和設計中添加一些補償技術?!?/p>
使用的一些技術包括創建片上監控器和傳感器,以檢測操作期間設備性能的任何下降。通過這種感應,可以應用補償來適應參數退化,從而避免設計的整體性能退化。
額外的監控器可能會增加設備和后續產品的面積,并消耗額外的功率或影響性能。但在某些情況下,擁有此類監控器和補償技術可以確保在不造成傷害或服務中斷的情況下采取糾正措施。
老化和應力
雖然老化和各種類型的應力(機械、電氣、熱)是不可避免的,但能夠預測這些影響會對設備執行規范的時間產生重大影響。預測影響的關鍵要素之一是了解芯片的使用環境。
“對于分析的探索源于汽車等傳統領域,例如如何對應力環境進行建模,如何讓設計工程師有信心確保部件在未來15年內都能正常工作?!盋adence數字與簽核小組高級產品管理總監Brandon Bautz表示?!捌噾靡笤O備能夠運行10年,但只消耗這么多電力,否則我的電動汽車不會走那么遠。部件的可靠性和性能之間需要平衡。如何獲得更準確的分析,以便可以更清楚地了解芯片性能與可靠性?從數字角度進行的老化分析已經有一段時間了,但分析結果相對悲觀。但考慮到10年前,甚至5年前擁有的工具,這種分析方法確實是需要的。”
然而,鑒于汽車行業對硅的依賴程度如此之高,出于成本原因,許多較新的領域也在尋求高可靠性?!澳梢允剐酒浅?煽?,但它可能無法按照需要的方式運行。” Bautz表示?!坝捎谛酒旧淼膹碗s性,成本、性能、面積和風險的權衡變得越來越激烈。因此,需要進行的分析類型更加復雜。保護帶和確??煽渴呛玫?,但根據我們所做的一些研究,以及我們在表征和分析算法中所做的改進,已經展示了客戶使用這些較舊的方法所擁有的利潤率。通過更準確的分析,設計團隊將能夠平衡可靠性和性能?!?/p>
這為更多的全面分析打開了大門,反過來又會對可靠性產生重大影響。
“從了解過去二十年的工作方式開始,我們認識到10年前有限的計算能力無法真正捕捉到問題的真正本質。在這種情況下,我們指的是老化,以及影響老化的應力依賴性,”Bautz稱?!巴ㄟ^在數字分析中將兩個部分放在一起,表征過程可以在單元級別捕獲設備性能。然后查看設計級別,并在設計的上下文中觀察特定的元件和設備性能。將特征與時序分析相結合,為設計人員提供準確度,更具體地說,讓設計人員深入了解他們的電路在整體設計環境中的工作方式。那么將電路置于設計環境中,便可以分析設備的實際應力。因此,我們可以更準確地分析老化對設備的影響,并了解它如何影響設備的整體壽命?!?/p>
模擬可靠性問題
這僅適用于數字設計,模擬設計面臨著更多的自身挑戰。
如今,幾乎所有的芯片都包含模擬電路?!凹词乖趽碛袛蛋偃f個門級的系統中,仍然存在一定數量的模擬電路,而且這個數量還在增加?!盋adence定制IC和PCB集團產品管理總監Jay Madiraju表示?!澳M設計團隊關心的不僅僅是功能,他們設計的模擬組件和模塊將與龐大的數字邏輯電路相連接。他們想預先知道設計是否可靠?!?/p>
可靠性在模擬方面具有多重含義?!爱斈榭唇浀湓「浊€時,您認為什么時候產品才算是可靠的?可靠性的概念實際上意味著什么?這需要看模擬器件隨著時間的推移是否能夠運作良好,”Madiraju表示。“這絕對是模擬人關心的問題。那么,隨著時間的推移,電路如何發揮作用?從多年經驗來看,設備故障將會變得越來越多,越來越不易于使用。但哪些地方損壞了?就載流子遷移率、閾值電壓和其他器件特性而言,這是整個電路按其應有的方式運行的基礎。它是如何隨著時間的推移而退化的,如何在退化之前預測?”
雖然老化技術的仿真已經發展了幾十年,但其任務配置文件在過去幾年中才得到了改進。
“在任務配置文件之前,工程團隊仿真了最壞的情況,”他介紹。“‘這將是最糟糕的情況。該芯片將用于汽車領域。我們將假設這輛車將永遠在120°的天氣里。如何仿真這種極端情況?’你必須通過假設這些極端惡劣情況來保障設備可靠性,但其意外后果是過度設計、過度裕量和保護帶。設計人員的設計理念相當保守,全面考慮性能會受到的影響——性能來自不同方面,比如速度、時序和功率泄漏,以及芯片應該如何表現的所有不同方面。任務配置文件有助于解決這個問題,因此可以定義不同的條件,包括溫度、電壓和其他隨時間變化的條件。你可以說有時候這些芯片有不同的應力模式,或者在這種操作下,比如在進行校準過程時,它會承受多大的應力。應力會導致退化。不同模式下也不盡相同?!?/p>
另一方面是制造可靠性,在模擬領域中,有幾個因素將會影響可靠性?!耙粋€是時間的退化。另一個是在制造過程中發生的未通過測試的缺陷,例如芯片已經完工且在將其發布給原始設備制造商之前已經完成了初始測試。例如,在汽車領域,一些芯片通過了這些測試并交付給客戶,汽車OEM會面臨這些問題??煽啃詥栴}將是業界重點關注的問題。”他解釋。
這就是模擬故障仿真的用武之地。它類似于數字端的DFT,在芯片流片之前的驗證過程注入故障?!拔覀兛梢钥吹侥男┕收蠜]有影響,哪些故障會影響輸出,哪些不會影響輸出,然后可以嘗試進行覆蓋測量。我們正在通過各種測試來驗證設計。當注入故障時,預期看到的是錯誤的輸出。最終,所有這一切的目標是看看在使用測試集來運行電路時,是否捕捉到了需要的一切現象,以便當芯片退化時客戶不會發現錯誤?” Madiraju說。
電熱效應是模擬領域中另一個日益重要影響因素,而自熱模型中缺少的是熱量對相鄰或附近設備的影響。這需要電熱模擬仿真。
“以前,工程團隊只會進行熱模擬,測量傳播效果,然后他們會根據對功率的影響返回相應信息至模擬電路,這是電氣仿真、電路仿真和熱之間單向流動的一部分。”他說?!艾F在,這對于先進芯片和高壓設備來說顯然是不夠的,當然還有汽車領域的那些芯片,以及承受高壓條件的工業芯片。亟需一種綜合方法,使這種反饋效應在單個仿真中建模?!?/p>
可靠性和內存
內存對可靠性的影響越來越大,因為內存選擇會影響從功率到面積的所有性能參數。這在 DRAM中尤為明顯,隨著時間推移,選擇高帶寬內存或GDDR會對內存在其他組件環境中的狀態產生重大影響。
“與DDR、GDDR或LPDDR相比,HBM設備的功耗將更低,需要處理的物理接口更少。”Synopsys內存接口IP產品營銷經理Brett Murdock表示?!叭绾卧赟oC上物理實現它們是不受控制的。你想做什么,就可以做什么。你可以將一個完整的線性PHY放在芯片的一側,可以環繞在角落,也可以將它折疊起來。有無數種方法可以實現該物理接口。但是使用 HBM,則需要放置HBM立方體,而JEDEC已經準確定義了該立方體上的凸點地圖是什么樣子。這意味著雖然就放置凸點的位置而言,靈活性可能較低,但它能夠帶來更好的可預測性和可靠性。中介層以及如何將其連接在一起有多種不同的選擇,但歸根結底,如果選擇GDDR、LPDDR、DDR,則可以構建數百萬種不同的電路板,以數百萬種不同的方式將其連接起來,導致數百萬種不同的實現方式,以及數百萬種不同的錯誤結果。而對于HBM,放入PHY,放入設備,并且如何在這兩者之間放置中介層沒有太多可變性。SoC和HBM設備之間會有最小間距規則?!?/p>
在可能的情況下,重復過去有效的方法可以大大確保它在新設計中有效?!爸貜陀兄谔岣呖煽啃?,” Murdock認為。“我們為每個客戶做同樣的事情,或幾乎同樣的事情,這一事實意味著我們越來越有經驗。這是經過驗證的方案。”
偏差
偏差是另一個影響可靠性的因素,因此了解其對先進節點和先進封裝的影響尤為重要。造成偏差的原因有很多,從材料中的污染物和CMP的剩余顆粒,到封裝過程中的芯片移位和光刻技術的不一致性。芯片在什么時候會產生缺陷,以及如何在設計階段解決這些問題仍然是一個挑戰。
“設計團隊意識到需要對設計中的偏差采取解決措施,”西門子EDA AMS驗證產品PLM 軟件負責人Sathishkumar Balasubramanian表示?!叭藗儑@這個談論不同的概念,包括穩健性和可靠性。歸根結底,這些都指向同一目標,即客戶希望設備能夠在投入最終產品的任何地方工作,且能夠在給定的合理時間表內工作更長時間。”
Balasubramanian表示,偏差非常重要,以至于業界開始將偏差作為高sigma要求包含在內,從庫組件的設計流程早期開始,將其作為流程的一部分?!八麄冎荚诖_保組件堅固耐用。例如,在標準庫中,對于給定的標準單元庫和特定工藝,它滿足所有不同的 PVT,范圍更廣,并且仍然滿足3到7 sigma要求?!?/p>
總結
將所有這些部分放在設計到制造流程的最左側是一項復雜的工作。實際上,過去可以在制造中修復的問題已經越來越難以完成。如今,必須在更左側考慮潛在問題,這意味著設計團隊現在正在努力解決通常為工藝工程師保留的概念,而工藝工程師正在將數據反饋給EDA供應商,從而對工具進行調整,或增加新功能。
當前,可靠性仍是一個普遍性挑戰,從最初設計到現場產品監控,整個供應鏈都需要為保障芯片可靠性盡職盡責。