異構計算中國芯!那麼問題來了,異構計算到底是什麼

文章推薦指數: 80 %
投票人數:10人

出品:科普中國

製作:鐵流

監製:中國科學院計算機網絡信息中心

隨著近幾年天河2號和神威太湖之光相繼在全球超級計算機公布的TOP500刷榜。

在超級計算方面異構計算已經基本取代了同構計算,而且隨著Intel著力發展CPU+FPGA,AMD大力研發CPU+GPU,異構計算也將越來越多的進入人們的視野。

在國外公司積極布局異構計算的同時,國內公司也不甘落後。

日前,中國華夏芯公司宣布,其異構計算處理器IP核已經在矽片上成功實現,並已通過HSA(異構系統架構)一致性測試。

公司還宣布了新的機器學習和深層神經網絡的開源項目,旨在進一步推動HSA異構計算的發展。

目前,在HSA協會的推動下,異構計算有向越來越多的領域侵蝕的趨勢。

那麼,什麼是異構計算?發展前景究竟如何?中國首個異構計算處理器又憑什麼在業界處於領先地位呢?

什麼是異構計算

同構計算是使用相同類型指令集和體系架構的計算單元組成系統的計算方式。

而異構計算主要是指使用不同類型指令集和體系架構的計算單元組成系統的計算方式,常見的計算單元類別包括CPU、GPU、DSP、ASIC、FPGA等。

異構計算用簡單的公式可以表示為「CPU+XXX」。

舉例來說,AMD著力發展的APU就屬於異構計算,用公式表示就是CPU+GPU。

由於術業有專攻,CPU、GPU、DSP、ASIC、FPGA各有所長,在一些場景下,引入特定計算單元,讓計算系統變成混合結構,就能讓CPU、GPU、DSP、FPGA執行自己最擅長的任務。

如果能做到無縫地將運行於CPU之上的通用計算、運行於GPU之上的並行計算、運行於DSP之上或者ASIC/FPGA之上的優化計算整合在一起,就能獲得更好的應用性能,更低的功耗等特性,相對於同構計算而言也可能有一定性能優勢。

以天河2號的一個計算節點為例。

Xeon E5的滿載功耗達145W,雙精浮點為0.21T Flops,而Xeon PHI功耗300W,雙精浮點達1T Flops。

天河2號一個計算節點由2片Xeon E5和3片Xeon PHI,理論雙精浮點性能為3.42T Flops,功耗為1190W,理論雙精浮點性能與功耗的比值為2.87GFlops/W。

相同功耗下使用8片Xeon E5隻能獲得1696Gflops的理論雙精浮點性能,理論雙精浮點性能與功耗的比值為1.42GFlops/W。

從數據可以看出,在同等功耗下,在使用Xeon PHI加速後,理論雙精浮點性能是只使用Xeon E5的2倍。

正是因為異構計算在理論上有著諸多的優勢,一些媒體將「CPU+XXX」稱為下一代處理器。

在超算上應用廣泛

事實上,最近幾年曾經在TOP500刷榜,或者排名靠前的超算都採用了異構計算——中國神威太湖之光、美國超算泰坦、中國天河1號和天河2號。

泰坦有18688個運算節點,每個運算節點由1個16核心AMD Opteron 6274處理器和1個NVIDIA Tesla K20加速器組成,共計299008個運算核心,屬於CPU+GPU。

天河1號使用了14336片Intel Xeon X5670處理器和7168片NVIDIA Tesla M2050高性能計算卡,屬於CPU+GPU。

天河2號有16000個計算節點,每個節點由2片Intel的E5 2692和3片Xeon PHI組成,共使用了32000片Intel的E5 2692和48000片Xeon PHI,屬於CPU+眾核晶片。

正在升級的天河2號則將美國的Xeon PHI換成了自主研發的矩陣2000,屬於CPU+DSP。

中國首個異構計算處理器屬於自主研發

近年來,國家對集成電路產業發展高度重視,在龍芯、申威等老牌設計單位取得累累碩果的同時,又成立了擁有1200億元人民幣的集成電路大基金扶持產業發展,先後與IBM、VIA、高通、AMD合資/合作成立兆芯、宏芯、華芯通等公司,並大力扶持展訊、海思、聯芯等ARM陣營IC設計公司茁壯成長。

不過,在上述公司中,除了龍芯和申威之外,大多都對境外技術有一定依賴,有的還成為境外公司的馬甲,既不具備造血能力,又只能依賴政府經費生存。

可以說,當今開發處理器的公司中魚龍混雜,真正能做到自主研發、自主可控的少之又少。

就是在業界普遍購買國外技術授權,開發所謂「國產」處理器的大背景下,華夏芯選擇了最為艱難的自主研發道路——其處理器的指令集和IP都屬於自主研發。

也許很多人從來沒有聽說過華夏芯這樣一家公司,但該公司確實是中國第一家從事異構計算處理器IP核設計的集成電路企業——華夏芯公司是一個定位於全球市場的中國公司,研發團隊的來源也是全球化,但是從技術到人才都掌握在華夏芯手中,比如華夏芯的3合1「 Unity」體系架構是其獨創技術,在同行業中也處於領先地位。

更難得的是,華夏芯並沒有像一些商業公司那樣購買ARM指令集,而是公司自主開發的指令集、微結構和工具鏈。

因此,在自主創新能力上,和一些購買ARM 的IP授權開發所謂「國產」CPU的國內廠商有著本質上的區別。

華夏芯公司最近發布了一系列新的IP授權產品,在全球範圍授權IP,為客戶提供一流的處理器設計技術。

所有華夏芯的處理器均支持HSA。

對此,華夏芯的董事長李科奕表示,「我們很高興地看到華夏芯的新IP核通過了PRM HSA一致性測試,面向工業、物聯網、高級駕駛輔助系統(ADAS)和嵌入式系統,該IP核對功耗進行了優化並向全球提供許可」。

據了解,華夏芯還是中國唯二的可以對外授權IP的處理器公司(另一家是龍芯),在中國大多數CPU公司還處於購買國外IP做集成的時代,華夏芯能夠自己開發IP並且能夠對外授權就顯得尤為難得。

目前,華夏芯的CPU核可以通過IP授權的方式提供給客戶,第一款CPU已經在台積電使用28nm HPC製成工藝流片,2016年第3季度提供給潛在客戶作為評估或開發之用。

相對於國外大廠有何獨門絕技

中國首個異構處理器相對於國外產品最大的特色就是3合1「 Unity」體系架構。

本次在矽片上實現的IP核是華夏芯3合1「 Unity」體系架構的首次實現。

Unity具有包括圖像和視頻處理在內的多維信號處理能力。

華夏芯美國研發中心的CTO Mayan Moudgill博士表示,「矢量處理長度可依據矢量計算的需求動態設置,最大配置達到64KB,滿足各種智能化應用和高性能計算對並行計算的要求,保證了指令架構的穩健性和軟體代碼的移植性。

變長矢量處理單元(VPU)在進行大量數據處理的同時,結合了低功耗、亂序執行流水線等多項先進技術,從而使多個控制線程高效地執行」。

值得關注的是,在華夏芯面向全球發布上述消息2天之後,ARM也發布了與其類似的V8-A的矢量擴展架構(SVE),其技術特徵與華夏芯推出的VPU單元極為相似。

這說明,真正從事自主創新的國產處理器設計公司完全可以在核心技術上達到國際領先水平,其創新能力要遠遠優於那些通過IP授權設計CPU的公司,畢竟後者在自主創新的空間上受到授權許可方極其嚴苛的各種限制。

另外,市場上有很多SOC也集成了CPU、GPU、DSP等計算單元,比如像高通驍龍晶片、華為海思麒麟晶片都集成了CPU、GPU和DSP。

那麼,華夏芯3合1「 Unity」體系架構和市面上普遍存在的SOC有哪些優勢呢?

之前提到的SOC的CPU、GPU、DSP的指令架構不同,微架構不同,工具鏈不同,是基於多核集成做出來的異構多核晶片,它們往往採用作業系統完成多核、多任務之間的同步與協調,因而會影響效率。

在這裡特彆強調一下,傳統的SOC多核編程非常難,雖然在物理上實現了單晶片多核集成,但是在開發習慣和流程上與傳統的板上集成系統沒有太大的不同,即性能不高、功耗不小、多套工具、多個團隊、開發困難、優化更難。

相比之下,基於華夏芯Unity架構的晶片單核已經具備CPU、IVP(image and video processor)、DSP的處理能力,而且是一套指令架構,一套微架構,一套工具鏈。

在做多核擴展、硬體加速器和FPGA的整合工作時,華夏芯的Utility體系架構將完全遵循HSA的規範,可以重用HSA的軟體生態系統。

因此,華夏芯的3合1做法在功耗、成本、性能、軟體開發門檻、團隊規模等方面都有巨大的優勢。

異構計算市場前景如何

異構計算在理論上相對於同構計算擁有很多優勢——HSA能夠簡化晶片結構設計、降低應用編程門檻、縮短項目研發周期、顯著提升晶片性能、廣泛共享軟體生態。

有廠家甚至宣傳異構計算可以實現任何程序都不必費心考慮不同處理器內核之間的存儲差異。

但在現階段,異構計算除了在超算上取得了明顯成績,在其他領域優勢並不大。

即便異構計算目前還存在這樣或那樣的一些問題,但卻是非常具有發展潛力的技術。

隨著技術的進步,電子消費品市場對於高性能並行計算的需求正在爆發性增長,特別是在機器視覺、人工智慧、雲計算、AR/VR、軟體定義無線電以及其他新興領域,都對異構計算系統有著非常大的需求。

而HSA在系統編程方式上的邁進使得一個複雜片上系統能夠協調在並行計算上比CPU更高效、更低功耗的GPU、DSP以及硬體加速器等計算單元承擔大部分繁重的計算工作任務,在上述新興領域能發揮較理想的作用。

也正是因此,Parmance公司計劃與華夏芯在ML-HSA項目上進行合作——該項目面向機器學習和深層神經網絡,並針對華夏芯此前發起的開源gccbrig項目進行優化,gccbrig項目為任何支持GCC的平台提供編譯(終結轉換)功能。

國外巨頭也一直著力發展異構計算系統——Intel在去年以167億美元收購阿爾特拉,發展CPU+FPGA,AMD著力發展的APU也屬於異構計算,像Imagination、MTK等一些廠商也在異構計算領域積極布局。

可以說,異構計算的市場前景還是值得期待的。

結語

雖然在CPU、GPU、DSP等傳統晶片上,中國與西方還有這比較大的差距,但在異構計算處理器上,中國與國際先進水平差距小,局部甚至還處於領先地位,可以說,本次華夏芯成功研發的異構計算處理器則是中國在該領域的有益嘗試。

「科普中國」是中國科協攜同社會各方利用信息化手段開展科學傳播的科學權威品牌。

本文由科普中國融合創作出品,轉載請註明出處。


請為這篇文章評分?


相關文章 

中國首個異構計算處理器IP核在矽上成功實現

日前,中國華夏芯公司宣布,其異構計算處理器IP核已經在矽片上成功實現,並已通過HSA(異構系統架構)一致性測試。公司還宣布了新的機器學習和深層神經網絡的開源項目,旨在進一步推動HSA異構計算的發...

ARM——移動處理器背後的皇帝

提到晶片商,大家首先會想起誰?英特爾、AMD、蘋果、三星、高通、聯發科、麒麟......實際上,除了英特爾和AMD等少數混「X86圈子」的晶片廠外,其餘廠商都是要看ARM臉色吃飯的。「ARM」的...