構建未來計算引擎,英特爾下注3D晶片堆疊技術

文章推薦指數: 80 %
投票人數:10人

本文轉載自電子工程專輯

「Foveros 3D晶片封裝技術將在不久的將來為英特爾計算引擎的構建奠定基礎。

最近英特爾舉辦了一場引人注目的「架構日」活動,公布了未來多年的產品技術路線圖、技術戰略規劃以及一系列新技術。

外媒The Next Platform隨即發布了一篇深度分析文章,對Tick-Tock模式演進和Foveros 3D晶片封裝技術進行了深度解析。

作者認為,面臨壓力,英特爾能從現有工藝中釋放出超乎想像的更高性能;而Foveros將在不久的將來為英特爾計算引擎的構建奠定基礎。

以下為部分摘選:

創新離不開動力。

從財務角度來看,RISC/Unix供應商的衰落以及AMD在伺服器市場的缺席使英特爾大為受益,它在數據中心的霸權也從未如此強大,收入和利潤不斷突破紀錄。

這也來源於超大規模運營商和雲構建商的崛起所帶來的機遇,同時也帶給英特爾一些競爭壓力,這些壓力在之前往往來自於直接競爭對手、OEM和ODM。

雖然英特爾在數據中心計算伺服器方面仍幸運地保持增長且接近壟斷,並擴展到網絡和存儲設備且都取得了一些成績,但缺乏競爭確實損害了英特爾的工程優勢。

對於英特爾來說輕鬆賺錢是好事。

伺服器市場的增長速度比弱小競爭對手吞食市場份額的速度要快得多,AMD Epyc和Marvell ThunderX2的攻擊以及IBM Power9的一系列動作並沒有真正打擊到英特爾的核心伺服器業務。

延遲了兩年的10納米工藝雖然擾亂了英特爾的路線圖,但也沒造成什麼確切影響。

然而在2019年,隨著AMD和Marvell使用台積電的先進工藝推出下一代產品,戰火將會蔓延,並很可能會波及英特爾。

挫敗這些攻擊,是英特爾公司處理器核心和視覺計算高級副總裁、英特爾邊緣計算解決方案總經理兼首席架構師Raja Koduri,以及高級副總裁兼矽工程事業部總經理Jim Keller的工作。

Koduri和Keller是分別負責讓AMD Radeon GPU和Epyc CPU產品線重生的人物。

這兩位和其他英特爾高管在最近舉行的架構日活動中,在英特爾聯合創始人Robert Noyce舊居發布了攻防計劃。

在這裡,英特爾從高處俯瞰矽谷,試圖在數據中心拿下更大一塊地盤。

羅馬不是一天建成的,也不是一天毀滅的

大家都熟悉英特爾十多年來採用的Tick-Tock模式。

英特爾將晶片改進的過程分為兩個部分以降低風險,其中Tick階段是電晶體製造工藝的縮小,Tock階段是基於前階段工藝的架構改進。

使用Tick-Tock模式,英特爾可以維持穩定的性能提升,該模式也運作得非常好,直到Tick階段需要花費更長的時間且Tock階段變得越來越難。

英特爾從14納米開始打破Tick-Tock模式,延長為Tick-Tick-Tick-Tick模式,試圖從一個晶片工藝節點獲得更高的性能。

這種改變很有必要,10納米工藝的推遲導致了14納米Tick階段的拉伸以及10納米Tick階段的延期,接著影響到依賴於10納米工藝的一大堆Tock階段。

從中得到的經驗可能就是Tock階段不能過分依賴於前面的Tick階段,需要學習混搭不同工藝的晶片將它們塞進一個2D封裝,或者堆疊成3D封裝。

實際上只需要在最有用的晶片上使用最先進的Tick工藝,而把其它的小晶片組件放在封裝上,比如把消耗大量電能的內存控制器和I/O控制器放在晶片之外,這樣成熟的電晶體蝕刻工藝尺寸會更大,但製造成本也更低。

關於製程,有一點非常重要。

面臨壓力,英特爾能從現有工藝中釋放出超乎想像的更高性能。

當前14納米FinFET工藝蝕刻的酷睿台式機處理器就是一個很好的例子,並且這也適用於凌動或伺服器的至強晶片。

下表顯示了過去幾年酷睿晶片最高時鐘速率隨工藝優化的演變:

製程更新本質上是更平滑的優化,即使新的工藝已經推出,每個製程節點仍會持續更長的時間。

這種更平滑的方式可以幫助緩解一些競爭壓力,但隨著英特爾增加10納米設備而減少14納米設備,導致了2018年PC晶片和一些伺服器晶片的短缺,迫使英特爾集中精力在最佳良率上,並把最好的14納米工藝應用於最暢銷的PC和伺服器晶片。

英特爾需要讓客戶習慣這種Tick-Tick-Tick-Tick-Tick模式,它將改變工廠增減設施來滿足需求的方式。

Koduri希望大家了解的是,英特爾現在已經掌控10納米工藝,而且正在前瞻7納米甚至更先進的5納米。

這是當前路徑的樣子:

如圖,英特爾每個製程節點有兩個不同版本,一個針對計算優化,一個針對I/O優化,因為二者需要不同的電晶體屬性。

以偶數結尾的製程變數用於計算,以奇數結尾的用於I/O。

在最初的10納米製程後面,有兩個優化的計算節點,英特爾可能會對外稱之為10納米+和10納米++。

與此同時,後續的7納米工藝,目前正在開發中。

英特爾也正在對5納米製程進行「尋路」研究。

製程工藝過剩

然而還有一個更大的問題需要解決,那就是數據中心的計算類型如同寒武紀大爆發一樣增長。

英特爾一直在構建不同計算類型的產品組合,除了至強和凌動伺服器CPU、Arria和Stratix(來自收購的Altera)FPGA,及其Crest神經網絡處理器(來自收購的Nervana)之外,英特爾非常清楚它還需要加入可用作加速器的獨立GPU。

英特爾需要可與Nvidia Tesla和AMD Radeon Instinct GPU加速器直接競爭的產品,這也是其首先雇用Koduri的原因之一。

目前尚不清楚英特爾將如何幫助客戶選擇用於任意特定工作負載的計算產品,因為在許多情況下會出現大量的重疊。

但是在我們深入了解這些讓人眼花繚亂的晶片組合之前,且先退一步看看。

英特爾一再表示,它追求的不再是價值僅450億美元的客戶端和伺服器處理器市場,再加上一些快閃記憶體和部分超微互連,而是追求更廣闊的3000億美元的計算市場,將其產品嵌入數據中心、園區和邊緣各式各樣的裝置中。

要負擔所有這些晶片的研究和工廠建設費用,英特爾將必須大規模生產。

Koduri提醒大家的第一件事是,並非所有的電晶體都適用於不同的場景,而且在這個摩爾定律放緩的世界,作為一個多元電子器件供應商,需要為不同類型的電路使用不同的製程工藝。

即使可以使用單個製程技術大費周章地在晶片上建立單片系統,那也許並不算明智的做法。

「我們期望建立一個3000億美元的潛在市場規模,並進入不同的市場領域,我們注意到需要建造的電晶體設計十分多樣,」Koduri解釋道,「例如,台式機CPU就對於性能和功率都有廣泛的需求,新電晶體在這些場景中並不總是更適用。

事實上,沒有電晶體可以覆蓋所有這些需求。

另外,我們需要集成的電晶體越來越多樣——我們有通信電晶體、I/O電晶體、FPGA電晶體、以及傳統的CPU邏輯電晶體。

因此,出於經濟和技術因素,以及不同市場需要根據功率限制、性能特徵、特性和成本集成不同原件,單個大晶片需要被拆分成多個小晶片(chiplet)。

正如我們已經指出,不僅僅是英特爾,業界的一切都將向插槽內多晶片封裝發展。

所以,這就是英特爾將要做的事情。

尚不清楚具體什麼時候、使用什麼電路,但顯然未來英特爾可編程解決方案事業部的「Falcon Mesa」 FPGA將採用模塊化插槽設計,並使用10納米工藝至少來實現其核心邏輯。

小晶片的模式不僅是將應用不同製程的組件部分組合,而是還能製造出比單個大晶片能適應更廣泛的性能和功率範圍的一系列部件。

另一個採用10納米工藝的組件是英特爾112 Gb/s SerDes電路,它的製程可能在未來相當長一段時間內不會縮小。

它支持脈幅調製,可在一個信號中承載更多比特。

英特爾擁有112 Gb/s SerDes,意味著英特爾可以提供能與業界相媲美的Omni-Path 200及乙太網連接,這對於英特爾和眾多網絡廠商競爭是很有必要的,其中一些對手同樣銷售英特爾處理器的競品。

所有這些因素最終帶來了Foveros 3D晶片封裝技術,它將在不久的將來為英特爾計算引擎的構建奠定基礎。

Foveros是一種系統級封裝集成,為嵌入式多晶片互連橋接(EMIB)多晶片封裝技術增加了第二個維度,EMIB是英特爾一項研究多年的工作,並最終在連接小晶片的Stratix 10 FPGA、以及在單獨封裝的配置AMD GPU和高帶寬內存(HBM)的Kaby Lake-G 酷睿晶片上得到應用。

使用Foveros系統級封裝多晶片模塊,為計算複合體(可以包括內存及其它組件)提供服務的I/O電路、SRAM緩存和電源電路可以在基層晶片上構建,基層晶片覆蓋於封裝襯底上,襯底可以放置針腳與插槽配合,抑或直接焊接到主板上。

有源中介層被放置在該封裝襯底上,其上方的各種小晶片通過矽穿孔(TSV)可以互相連接。

小晶片上的微凸塊可以通過TSV向下深入中介層,從而連接到堆疊晶片的最底層,然後在中介層內可以到達鄰近,或到達堆疊其上的其它晶片。

除了一層底層晶片和另一層頂層晶片,可以有很多分層:

看看這些焊點凸起多麼閃亮;當圖形專家做演示時就會發生這種情況。

使用Foveros工藝的第一個產品在架構日上進行了演示,如下圖:

這個設備定位是超便攜應用,封裝尺寸為12毫米×12毫米,遠小於一枚美元硬幣。

具有I/O和其它片上系統組件的基層晶片使用1222工藝,該工藝是基礎22納米工藝的代號,非常久遠,在完善後被應用於「Ivy Bridge」和「Haswell」 至強上。

更大電晶體更適合電源和I/O電路。

在其上方是使用10納米工藝實現的計算複合體(1274,前綴P表示使用Foveros堆疊),在這個例子中,它包含了來自「Sunny Cove」 酷睿的一個核心和來自「Tremont」 凌動的四個核心,以一種ARM已經應用多年的方式混搭。

最頂層是一大塊疊層封裝內存。

英特爾沒有說明這種晶片複合體在負載條件下功耗多少,但確實表示它在待機狀態消耗為2毫瓦,大約是能取得的最低值。

英特爾並未明確表示在未來的酷睿和至強處理器中使用Foveros技術,但顯然未來的「Falcon Mesa」 FPGA,和2020年的Xe獨立GPU中將用到它。

我們認為未來的至強和凌動,以及各種CPU與GPU、FPGA、及Nervana神經網絡處理器等混搭晶片上都會用到Foveros技術。

英特爾不再僅靠製程和架構來推動其計算業務,還將充分利用內存和互連晶片,將安全性嵌入到所有元素中,並與一個涵蓋這些計算元素的更簡單的集成軟體集合在一起,也就是oneAPI。

之後,我們還將深入探討oneAPI以及各種計算引擎的路線圖,以及它們對回歸摩爾定律軌道的預期影響。

本文僅代表媒體觀點

文中圖片等素材的版權歸其所有者擁有


請為這篇文章評分?


相關文章 

IBM豪賭三星晶圓廠

來源:內容由公眾號 半導體行業觀察(ID:icbank)翻譯自「nextplatform」,謝謝。今年8月,當Globalfoundries決定停止開發和推出7nm浸沒式光刻技術和極紫外光刻技術...

混合存儲立方體:一個巨大的飛躍

隨著現代晶片堆疊技術的出現,獨立的處理器和內存不再有意義。美光科學技術公司是攜帶大量的智慧財產權的,和這個有關的智慧財產權。我相信,一個更大的實體已經結合了HMC和自動機的協調發展。這是第二個部...

摩爾定律時代即將落幕

編者按:晶片業喊「狼來了」已經有將近20年了,但摩爾定律似乎每一次都能化險為夷,維持存在。但是這次不一樣了,隨著產業在技術、經濟層面摸到的天花板越來越多,自1960年代以來為信息革命提供動力的...