半導體器件包含數(shù)以億計在極端溫度和惡劣環(huán)境下工作的晶體管,因此,許多器件不能正常工作或壽命有限也就不足為奇了。有些器件永遠出不了實驗室,還有很多器件死在晶圓廠里。人們希望大多數(shù)放到產(chǎn)品中的器件都能存活下來,直到它們過時,但很多事情可能會導致它們走不了那么遠。即使是運行正常的器件也可能受到損害,以至于無法提供正確的結(jié)果。
常見危害及其原因不可勝數(shù)。它們通常分為幾個類別,下面將對此進行詳細說明。
死于設(shè)計
根據(jù)Mentor/Wilson的功能驗證研究,2018年,只有26%的ASIC實現(xiàn)了一次流片成功,低于此前的研究結(jié)果。成功率低的部分原因是新技術(shù)節(jié)點增加了尚未完全理解的挑戰(zhàn)。已經(jīng)存在了一段時間的問題被納入到工具和流程中,從而使那些已知的問題不再是威脅。然而,2018年,混合信號接口、串擾、時序和IR drop,這些已知的問題導致了重新流片的增加。
圖1:導致重新流片的ASIC缺陷類型。 (來源:Wilson Research Group和西門子Mentor事業(yè)部,“2018年功能驗證研究”)
Synopsys的產(chǎn)品經(jīng)理Kenneth Chang表示:“一些客戶的芯片失敗,是因為他們的設(shè)計過程更加特殊。一位客戶進行了block級功耗分析,然后進行了整合。 他們認為可以在這個階段修復問題。但問題是不可修復的,芯片已經(jīng)失敗了。芯片失敗的原因在于舊方法不再適用于新的先進技術(shù)。”
失敗不一定是不能正常工作。Cadence公司Digital和Signoff部門產(chǎn)品管理總監(jiān)Jerry Zhao表示:“失敗可能是因為它沒能達到性能目標,如果芯片的運行速度比預期低10%,那么它在市場上可能沒有競爭力。”
電源正在成為一項挑戰(zhàn),特別是當電源在片上的時候。Arm公司物理設(shè)計部門高級解決方案營銷經(jīng)理Lisa Minwell表示:“電源供電網(wǎng)絡(luò)(PDN)是一個分布式RLC網(wǎng)絡(luò),可以分為三個部分:片上、封裝和電路板。片上需要更快的時鐘頻率、更低的工作電壓、更高的晶體管密度。雖然先進的finFET技術(shù)已經(jīng)實現(xiàn)了持續(xù)的性能提升,增加的功率密度使IR drop閉合成為一項挑戰(zhàn)。準確建模和最小化電壓裕度是平衡電源效率和魯棒性的關(guān)鍵。”
但裕度可能是悲觀的,從而限制了競爭力。盡管發(fā)現(xiàn)了問題,但一些公司還是冒險繼續(xù)前進。Kenneth Chang表示:“一家大型存儲器公司的流片出現(xiàn)了已知的大量IR drop問題。只要看上去不太糟糕,他們就會流片,因為日程表對他們來說更重要。客戶正在學習,在這種情況下,他們的芯片并沒有失敗。如果他們沒有失敗,他們就會繼續(xù)做正在做的事情。當他們到達更先進的節(jié)點時,他們會更加被指標驅(qū)動,并且需要執(zhí)行EMIR分析。”
越來越多的問題也開始同時出現(xiàn)。例如,功率、IR drop、發(fā)熱、時序、電遷移都是相關(guān)的,但是對于其中大部分問題的分析是分開進行的。Jerry Zhao表示:“電源噪音是一個問題。供電電壓正在下降,同時用戶希望獲得更高的性能。你無法從電池獲得太多的驅(qū)動功率,或許850 mV,但你仍然想要3GHz的性能。電源噪聲會產(chǎn)生重大影響,特別是當裸片有變化的情況下,這種(噪聲)會隨著時間和位置而變化。因此,不同位置的同一電池可能會因電壓下降而失效,從而導致時序延遲。你必須在電壓下降的背景下分析電池,并進行靜電電壓感應時序分析。有些路徑對電壓變化非常敏感。”
隨著問題得到更好的理解,工具可以進行更好的分析,并且可以使用設(shè)計方法來規(guī)避問題。Moortec公司營銷副總裁Ramsay Allen解釋道:“復雜性導致了更大的功率密度,而這反之又在芯片內(nèi)部產(chǎn)生了局部熱點。柵極密度的增加還會導致供給電路的電源電壓下降更大。在整個設(shè)計過程中,高精度的溫度傳感器和電源監(jiān)控器使系統(tǒng)能夠管理和適應這些條件,通過提供熱管理和供電異常檢測的解決方案,提高器件的可靠性和優(yōu)化性能。這一點在數(shù)據(jù)中心和人工智能設(shè)計中尤為重要,在這些設(shè)計中,性能要求的提高使設(shè)計在溫度和電壓方面承受了巨大的壓力。”
死于制造
半導體器件的制造涉及到測量僅幾納米的結(jié)構(gòu)。作為參照,人類DNA鏈直徑為2.5nm,而人頭發(fā)直徑則為80,000至100,000nm。一粒塵埃可以摧毀晶圓片上的幾個裸片。如果裸片的尺寸變大,隨機失效的可能性就會增加。對于成熟的工藝節(jié)點,產(chǎn)率可能在80%到90%之間。然而,對于較新的節(jié)點,產(chǎn)率可能大大低于50%,盡管實際數(shù)字是嚴格保密的。
圖2. 晶圓缺陷圖案。(來源:Marvell Semiconductor,ITC 2015)
即使裸片沒有受到災難性的影響,也不能被認為是可操作的。制造步驟不完善,哪怕一個原子的工藝變化也會產(chǎn)生顯著的差異。雖然這可能不會對設(shè)計的某些部分產(chǎn)生影響,但如果工藝變化恰好與關(guān)鍵時序路徑吻合,則可能會使器件不符合規(guī)格。
ANSYS公司ESD/heat /reliability產(chǎn)品經(jīng)理Karthik Srinivasan解釋說:“隨著設(shè)計逐漸演變成采用先進封裝的深亞微米技術(shù),現(xiàn)有的仿真工具和設(shè)計方法無法很好地反映變化及其對可靠性的影響。這會導致設(shè)計流程出現(xiàn)漏洞,從而導致一些失敗。”
設(shè)計流程越來越多地允許在開發(fā)早期就考慮到變化,以最大限度地減少其影響,而冗余等設(shè)計技術(shù)可以減少需要丟棄的“幾乎可以工作”的芯片的數(shù)量。“幾乎可以工作”的芯片對于大型存儲器陣列非常常見。分類(Binning)是經(jīng)常用于處理器的另一種做法,以較高頻率運行的優(yōu)良器件可以以較高價格出售,而那些只有在低頻時才能成功工作的器件則以折扣價出售。
測試的作用是找出哪些裸片功能完全。那些臨界的裸片通常會被丟棄,但一些無功能的裸片確實存在漏檢,并最終成為產(chǎn)品。
死于觸摸
殺死芯片有多種方法。請考慮,施加在芯片外部的0.5V電壓在1nm的介質(zhì)上產(chǎn)生0.5mV/m的電場。這足以導致高壓電弧。現(xiàn)在考慮一下當你觸摸芯片的引腳時會發(fā)生什么。
Jerry Zhao解釋說:“通常情況下,它是一個高電壓,根據(jù)引腳的接觸方式,會有不同的模型,如人體模型或電荷分布模型(CDM)。這些模型定義了電流如何流入引腳。這是一個隨時間變化的波形。”
通常,芯片會包含靜電放電(ESD)保護。ANSYS公司的Srinivasan指出:“對于封裝內(nèi)的單個裸片,他們的目標是2kJ這樣的標準。多芯片解決方案,例如HBM,標準略低。使用2.5D或3D IC的一個原因是為了性能,而ESD則是性能的障礙。你試圖最小化ESD,甚至在這些Wide I/O接口或任何類型的多芯片接口通道上消除它,這意味著你無法按照你針對單芯片的相同標準對每個芯片進行真正的測試。它們必須經(jīng)過更專業(yè)的測試,因為它們的ESD保護很小,或者可能沒有ESD保護。”
即使在運行期間,ESD事件也可能導致問題。Arm公司的Minwell說:“在便攜式電子產(chǎn)品中,ESD可以導致許多類型的軟錯誤。在ESD事件期間,電源供電網(wǎng)絡(luò)(PDN)上可能會引起噪聲,原因在于某些IC(振蕩器IC、CPU和其他IC)的靈敏度,或是PDN的場耦合。”
死于關(guān)聯(lián)問題
Helic公司營銷副總裁Magdy Abadir說:“軟錯誤可能以多種方式發(fā)生,如果錯誤是系統(tǒng)上的,它可能會使芯片看起來好像不工作。3D IC正在增加對電磁感應設(shè)計方法的需求。這是因為產(chǎn)生的功率密度更高和堆疊層數(shù)的增加,這就增加了產(chǎn)生天線的風險,它會放大整個設(shè)計過程中產(chǎn)生的磁場。”
電力供應不足也會造成問題。Jerry Zhao說:“芯片的功能取決于晶體管開關(guān)。這取決于供電電壓。如果它在1V下工作,它可能會下降10%或20%并仍然可以正常工作。但時序會有所不同,因此可能需要降低最大時鐘頻率。”
由于電壓降低,電路更容易受到噪聲的影響。ANSYS公司半導體事業(yè)部首席技術(shù)專家Norman Chang說:“電磁干擾(EMI)是芯片向環(huán)境發(fā)出的噪聲。噪聲源來自有源電路,它會在電源/地線和信號線上產(chǎn)生電流。電源線/地線將通過封裝到PCB,如果它看到封裝或PCB上有天線結(jié)構(gòu),就會引起空氣輻射,然后通過天線結(jié)構(gòu)輻射到環(huán)境中產(chǎn)生干擾。”
但出去的東西也會進來。Norman Chang表示:“電磁敏感性(EMS)是人們不得不擔心的新問題。能量注入測試是從150kHz開始注入1W能量,一直到1GHz。在每個頻率,你會向系統(tǒng)注入1W的能量。如果你沒有足夠的保護,就會破壞沿路徑進入芯片的電路。我們的目標不是破壞芯片,而是測試這種噪聲是否會影響電路。或者引腳上的電壓可能過高,如果電壓太高,就會產(chǎn)生過電應變(electrical over-strain)。”
死于操作
此時,芯片已經(jīng)到達現(xiàn)場并被認為是可操作的。Microchip模擬電源和接口部門首席產(chǎn)品營銷工程師Fionn Sheerin說:“可靠性是個大問題。在很多情況下,糟糕的熱設(shè)計并不會導致瞬間災難性的故障,甚至不會導致產(chǎn)品平庸。但器件壽命會變短。觀察layout中的熱點或最佳layout實踐以及良好的層次規(guī)劃可能會產(chǎn)生不同的效果。這也是驗證和可靠性測試真正重要之處,也是汽車應用中的功能安全問題。”
西門子Mentor事業(yè)部的產(chǎn)品營銷總監(jiān)Joe Davis對此表示贊同:“發(fā)熱帶來的問題不僅僅是手機在口袋里變熱。它會導致晶體管和它們之間的連接退化。這可能會影響性能和可靠性。”
熱量產(chǎn)生于兩個來源。Jerry Zhao表示:“首先是路由層。這是與導線中的電流有關(guān)的熱量。模擬電路比數(shù)字電路有更大的電流。因此,模擬設(shè)計者不得不擔心溫度過高是否會使連線融化。第二個來源是晶體管。當我們遷移到finFET時,一個新的現(xiàn)象是自熱。熱量沿著弱電阻路徑運動,從晶體管的鰭片垂直發(fā)散。這就增加了連線中的熱量。”
當大電流和熱量聚集在一起時,電遷移效應會慢慢損壞連線。類似地,諸如負偏置溫度不穩(wěn)定性(NBTI)之類的物理效應,當你有很大的電荷時,會對器件造成壓力,如果持續(xù)足夠長的時間會導致永久性損壞。
結(jié)論
本文僅包含芯片從計劃到產(chǎn)品,然后在產(chǎn)品的生命周期中所面臨的一些挑戰(zhàn)。
芯片在惡劣環(huán)境中運行,半導體行業(yè)已經(jīng)學會了如何應對這些挑戰(zhàn)。但是隨著制造尺寸變小以及采用新的封裝技術(shù)時,新問題出現(xiàn)了。有時,這些新效應會導致器件失敗。但從歷史上看,行業(yè)很快就學會了要么規(guī)避新問題,要么將問題最小化的方法。