Arm開闢新戰線背後|半導體行業觀察

文章推薦指數: 80 %
投票人數:10人

來源:內容由 公眾號 半導體行業觀察(ID:icbank)翻譯自「nextplatform」,謝謝。

編者按:近來,全球最大的IP供應商Arm正在面向基礎設施業務推出一個全新的產品線。

在一個全新的領導人的領導下的全新出擊,Arm這個決定背後的原因是什麼?我們來看一下thenextplatform的這篇深入報導。

由於過去10年電晶體的微縮,數據中心伺服器中和台式機中、筆記本電腦中的處理器架構之間的差距越來越大。

三種截然不同的工作負載的需求意味著你不能只修剪伺服器處理器以製作適合客戶端的東西,也不能使用台式機或筆記本電腦晶片,加上一些額外的存儲器和I/O把它變成伺服器引擎。

這就是為什麼Arm控股(Arm Holdings,軟銀的子公司,控制著主導智慧型手機的Arm處理器架構,並正試圖將觸角伸進數據中心)將其處理器產品線一分為二的主要原因。

至少對我們來說,Arm似乎還想讓伺服器晶片合作夥伴更容易地組裝出複雜而有競爭力的設計,而無需在獨特的IP上投入數千萬美元。

為什麼Calxeda會破產?為什麼Broadcom離開,高通或許緊隨其後?為什麼三星在公開談論其伺服器晶片的工作之前就放棄了?為什麼AMD在其Epyc X 86伺服器晶片問世時停止談論它的Arm伺服器業務?為什麼Applied Micro的伺服器晶片業務在一年多的時間內兩次易手,現在從某種成都看,是改造成了Ampere?為什麼Marvell的Cavium單元仍然是Arm伺服器晶片的唯一選擇?這些就是Arm持續大幅投資的原因。

除非你把HiSilicon和Phytium計算在內,否則它們在中國勢力範圍之外沒有希望。

順便說一句,我們確實包括了Mellanox Technologies(在收購EZchip之後出現)的Bluefield處理器。

亞馬遜仍然可以通過其Anapurna Labs自產的Arm晶片做一些有趣的事情,比如讓別人購買。

每個在伺服器處理器市場上尋求競爭的人都對Arm要花很長時間才能從英特爾的Xeons大山中奪取有意義的份額感到失望,Xeons這座大山被壓倒性地選為世界上絕大多數工作負載的現代數據處理引擎。

有一段時間,Arm希望到2020年獲得全球伺服器出貨量的20%,一年後的2021年在一片歡騰中將賭注提高到的25%(軟銀收購之前)。

這些樂觀的股價數據或許在一定程度上是基於這樣的預期:IBM的Power8和Power9不會對英特爾Xeons造成太大威脅(或許這樣描述不公平)。

英特爾在Xeon性能改善速度放緩的情況下,也會像當初一樣提高Xeon的價格,而AMD在把它的「Naples」Epyc處理器推向市場時存在問題——或是設計問題,或是晶圓廠合作夥伴問題,亦或兩者兼而有之。

從總體上看,Naples似乎完成了讓對話轉移到Epyc、並讓許多數據中心遠離Arm的任務,這要歸功於Epycs和Xeons的軟體兼容性,以及Arm伺服器晶片製造商所經歷的艱難歷程。

CIO們最討厭冒險。

市場已經擴大,到今年年底,AMD可能有5%的份額,但仍然沒有對英特爾造成任何傷害,因為沒有人會因購買英特爾而被解僱。

(至少現在還沒有。

他們以前也是這麼說IBM的,記得嗎?)而且看起來,Arm正在開發新的Neoverse系列基礎架構晶片,其目的是要比之前幾代Cortex A系列處理器(由伺服器引擎改造而成)減少一點風險。

我們不得不從Arm高層本周在聖何塞召開的技術大會上發布的少量信息中推斷出更多的信息。

但Arm基礎設施業務部門的高級副總裁兼總經理Drew Henry給了我們一些提示,並提出了Neoverse計劃的框架。

不斷變化的數據中心改變了處理

回到Unix工作站的全盛時期,以及它們作為伺服器平台出現的時候,Henry是SGI視覺計算業務的總經理,在一些初創公司工作了一段時間之後,他在英偉達主管GeForce顯卡業務長達11年。

此後,Henry在SanDisk工作了三年,經營其客戶平台Flash業務,向所有超級計算機和電信公司銷售各種消費設備,然後去了一些神秘的初創公司工作,致力於並行計算和機器學習問題,直到2017年9月接受Arm的工作。

去年11月,在Henry來到Arm幾個月後,我們採訪了他,Neoverse的發布是他在過去一年裡所做的工作的頂峰,他一直在努力使Arm更好地與數據中心和邊緣計算的未來保持一致。

像許多人一樣,我們已經認識到,很多計算都是在邊緣進行的,否則數據中心就可以勝任。

這是有關處理數據的問題,這些數據的增長速度遠遠快於摩爾定律的發展速度,而與此同時,摩爾定律正在放緩,計算、網絡和存儲方面的容量和性價比的增長速度也在放緩。

(近年來,一些巧妙的通信工程正在拯救網絡,但100 GB/秒的信令通道似乎是未來的一個相當大的障礙。

)數據將不得不在邊緣進行處理,因為將數據轉移回數據中心的成本太高,而且耗費時間太長。

也許我們將生活在一個沒有數據中心的世界裡,但是這個世界裡有一個數據和計算網格——也許是一個數據星系,有不斷升級的統一和改進的數據,以及不同的計算、存儲和網絡能力來支持這一點。

在詳細介紹Neoverse晶片計劃和路線圖之前,Henry做了一個總結,提醒我們Arm在今天的數據中心中占有非常大的份額,即使該架構在傳統服務中的份額很小。

這意味著Arm集團向蜂窩基站、交換機、網關、廣域網路由器和少量伺服器銷售的晶片份額將會增加,這一份額已經從7年前的約5%增長到2018年的近30%。

由於數據中心的存在和智慧型手機的絕對主導地位,Arm或許對數據中心和設備如何交互,以及這種交互是如何變化的有著最好的整體看法。

Henry表示,雲數據中心以各種形式創建和分發媒體內容的模式——目前傳輸的容量的75%是視頻,儘管我們認為,與數十億台個人電腦和智慧型手機相比,視頻信息內容還不能與其他傳統媒體(如文本和語音)相媲美。

但很快,它就會成為一個數據中心的集合,這些數據中心與設備的邊緣中心一起工作,在它們之間的網絡中來回移動的數據會更多。

就像這樣:

這兩個數據中心將會有三個數量級的增長——如果你把所有的邊緣中心加起來,就會有數千萬個這樣的中心,這將連接到多出三個數量級的設備——幾十萬億個這樣的中心。

這將是一個異常繁瑣的世界,有很多機器學習推理和數據凈化,以及對原始、瞬時和短暫數據的局部反應。

這將是一個真正的網際網路。

Henry解釋說:「在處理的過程中有一種再分配。

處理正在從核心轉移到邊緣,甚至進入設備本身,因為應用的延遲不能容忍。

我們深入參與了這些不同系統的設計。

新的轉折

Neoverse系列晶片將採用目前的Cortex-A72和Cortex-A75設計,這些設計將通過增強功能進行改造,並使用台灣半導體製造公司目前的16nm和14nm工具和掩模,以及三星和GlobalFoundries的對應產品進行製造。

Henry沒有透露這些晶片,他將其稱之為Cortex-A72和Cortex-A75的分支,雖然尚不知道如何區分,但我們很快就會看到。

我們知道它們將被重新命名為「Cosmos」平台,並將在16nm工藝製造,如路線圖所示:

明年,Arm將推出繼承「Cosmos」的「Ares」產品,這是事情變得有趣的地方。

如上圖所示,Arm承諾一種架構,每一代將提供大約30%的性能增強,並且每年都會對設計進行調整,以保證性能的實現。

到2021年,Arm推出的晶片設計如果能保持這樣的速度,其性能將提高2.2倍。

(Arm的意思是計算總吞吐量,而不是單線程性能,因為隨著核心數量的增加,時鐘速度會下降。

Arm確實談到了明年即將推出的Neoverse平台,該平台將面向繁重的數據中心任務,如網絡功能虛擬化數據平面和伺服器,以及具有少量內核的邊緣設備,如下所示:

Neoverse意味著一個新的轉折,也意味著在與英特爾的戰爭中開闢一個新的戰線。

Arm集團將承擔台積電、三星,以及聯華電子(台灣另一家在新加坡和中國大陸運營晶圓廠)的7nm工藝。

Globalfoundries是AMD和IBM的晶圓廠組合,它之所以不在這份名單上,是因為該公司在去年8月加大了7nm的研發力度,並試圖利用改進後的14nm技術,在其他類型的晶片上賺錢。

Neoverse計劃要求伺服器處理器最終擴展到128個核心。

我們猜測,Arm將使用多晶片模塊方法,利用Cortex-A72模塊首先在晶片上獲得48個內核,然後在2019年首先使用「Ares」將chiplet或晶片塊放入8個內核,然後在2020年用「Zeus」實現每塊12核,然後在2021年用「Poseidon」實現每塊16核,並且遷移到5nm晶片蝕刻。

數據平面應用中使用的變體最終有多達256個核心,這確實很有趣。

考慮到這一點,我們可以看到Arm核心架構類似於IBM的「Nimbus」和「Cumulus」Power9晶片變體,它具有IBM所謂的模塊化執行片,每片提供兩個線程。

這使IBM能夠製造一個12核晶片,每個核心有8個線程;或者製造一個24核晶片,每個核心有4個線程;如果願意的話,它甚至可以製造一個48核晶片,每個核心有兩個線程。

所有這些晶片都具有本質上相同的電晶體,只需稍微修改一下晶片的組織方式。

事實上,這可能就是相同的Neoverse Arm晶片如何在伺服器配置中執行64個核心,在數據平面配置中執行128個核心。

我們還假設Arm會咬緊牙關,將要求之外的內容添加到內核中,而到目前為止,這都是留給許可方去做的。

Neoverse的很多用於伺服器的電晶體預算都用在了緩存上,在高端的L3和L2緩存中,緩存將達到128 MB。

上圖中引用的1 TB/秒是將晶片塊連結在一起的8×8網格的帶寬。

這可以用於單片設計或chiplet 設計。

這個數字不是衡量將所有內核、I/O和內存連接在一起的互連的標準。

這應該遠遠超過1 TB/秒。

在互連總線上的所有這些元素中,24核的Power9晶片為7 TB/秒。

目前尚不清楚Neoverse設計中8個內存通道的內存帶寬是多少,但它可能大約為120 GB/秒,具體取決於支持DDR4的內存速度;DDR5內存會更高,如果Arm擁有緩衝的DDR5內存,則會更高。

HBM變體的內存帶寬可能相當高。

NEC的「Aurora」矢量處理器的6級HBM2內存可以達到1.2 TB /秒,因此8級可能高達1.4 TB /秒。

Neoverse伺服器架構將支持本地100 GB/秒乙太網、PCI-Express(大概是4.0版本,因為3.0的帶寬只有原來的一半,現在已經有點老了)和CCIX埠(假設每個方向每個通道運行25 GB/秒,與Power 9上IBM的BlueLink埠和NVLink埠相同)用於緊密耦合非易失性內存和加速器。

CCIX協議提供跨處理器和加速器的緩存一致性,也可以運行在PCI-Express 4.0之上,因此非常有用。

對於邊緣計算應用,Neoverse架構將縮小成4個沒有高速緩存的核心,1個帶有20 Gb/秒帶寬的DDR4內存通道,但將包括集成的10 Gb /秒乙太網埠以及4G和5G蜂窩無線電。

我們假設在這兩個極端之間會有變體,這也是我們假設Arm晶片製造許可方會做差異化的地方。

Henry公布了有關Neoverse架構如何在各種場景中使用的更精確的描述。

下圖是針對伺服器的一個示例:

你可以看到在64 MB的片上緩存的情況下,核心數量將如何擴展圖表中展示的幾代Cosmos、Ares和Zeus,以及CCIX將如何用於緊耦合伺服器。

目前尚不清楚CCIX是否會被用來進行NUMA互連,但由於它是一個緩存一致性協議,並且運行速度為25 Gb/s,所以沒有理由不能以這種方式使用CCIX,也沒有理由不能從理論上使用CCIX來製造有2個、4個,甚至8個插口的機器(如果晶片有足夠的CCIX埠,可以用相對較少的跳線進行拓撲的話)。

在某種程度上,我們認為,DDR內存通道必須擴展到8個以上,而這可能發生在頂級的Poseidon設計上。

下圖展示了如何對Neoverse進行調整,以支持網絡、存儲和安全加速器:

該架構將內核上的互連網格縮小為2×4和2×4網格,在16個核和24個核之間,大約有16 MB的片上緩存,有兩個DDR內存通道和更少的乙太網、PCI-Express和CCIX埠。

Neoverse邊緣設置瞄準了這兩者之間的差距:

它基本上嵌入了帶有4G和5G無線電的伺服器處理器的一半,可以選擇添加機器學習加速器和卸載引擎,用於網絡、存儲和PCI-Express或CCIX上的安全性。

順便說一句,Neoverse架構有增加片上FPGA的空間,對於那些喜歡Xilinx並希望比CCIX提供更緊密耦合的客戶而言,這可能是個好消息。

(當然,Xilinx是CCIX的先鋒。

綜上所述,部署Arm伺服器晶片可能會容易得多,人們對長期的路線圖更有信心,該路線圖顯示了持續的性能增長、多家晶圓廠合作夥伴,以及對穩步發展的堅定承諾。

這就是Arm集團如何實現在伺服器上分享25%份額的夢想,使之與它在其他數據中心設備中的現有份額相當。

Neoverse給了Arm更好的機會。


請為這篇文章評分?


相關文章 

Opteron到EPYC, AMD十四年後再度挑戰intel

在過去很長一段時間內,英特爾在伺服器晶片市場以高達99%市場份額處於壟斷地位,如同PC市場一樣,缺乏競爭的市場環境導致了B端或C端用戶的選擇缺失,數據中心市場的眾多企業和供應商也不得不選擇價格居...

AMD 32核心深度揭秘:堆一起真不容易!

如果說Ryzen在桌面上完美歸來,為重塑公司和產品形象奠定了基礎,那麼今天發布的EPYC(霄龍)伺服器平台,就是AMD全面扭轉競爭態勢的天王山戰役。多年前,AMD因為各種原因離開了利潤豐厚的、廣...

AMD EPYC現真身 欲與至強試比高

自從Intel至強處理器稱霸伺服器晶片市場後,AMD已有多年沒有拿出任何亮眼的產品能夠與其之一戰,以至於逐漸形成了一家獨大甚至壟斷的局面,而在任何一個產品市場中,壟斷意味著產品價格不透明,技術創...