中國首個異構計算處理器IP核在矽上成功實現

2020-10-14

文章推薦指數： 80 %

投票人數：10人

日前，中國華夏芯公司宣布，其異構計算處理器IP核已經在矽片上成功實現，並已通過HSA（異構系統架構）一致性測試。

公司還宣布了新的機器學習和深層神經網絡的開源項目，旨在進一步推動HSA異構計算的發展。

本次華夏芯推出的產品則是國內企業在異構計算上的技術突破，並有望在人工智慧、機器視覺、工業4.0、移動通信、無人機等領域推廣應用。

什麼是異構計算

同構計算是使用相同類型指令集和體系架構的計算單元組成系統的計算方式。

而異構計算主要是指使用不同類型指令集和體系架構的計算單元組成系統的計算方式，常見的計算單元類別包括CPU、GPU、DSP、ASIC、FPGA等。

異構計算用簡單的公式可以表示為「CPU+XXX」，究其本質而言Cpu+本質上指的是單核與多核能力的提升。

舉例來說，AMD著力發展的APU就屬於異構計算，用公式表示就是CPU+GPU。

由於術業有專攻，CPU、GPU、DSP、ASIC、FPGA各有所長，在一些場景下，引入特定計算單元，讓計算系統變成混合結構，就能讓CPU、GPU、DSP、FPGA執行自己最擅長的任務。

如果能做到無縫地將運行於CPU之上的通用計算、運行於GPU之上的並行計算、運行於DSP之上或者ASIC/FPGA之上的優化計算整合在一起，就能獲得更好的應用性能，更低的功耗等特性，相對於同構計算而言也可能有一定性能優勢。

在超算上已經得到廣泛應用

其實，異構計算對大家而言並不陌生，在TOP500刷榜的天河2號和神威太湖之光都採用了異構計算。

其原因就在於異構計算能帶來很高的性能和性能功耗比，以天河2號的一個計算節點為例。

Xeon E5的滿載功耗達145W，雙精浮點為0.21T Flops，而Xeon PHI功耗300W，雙精浮點達1T Flops。

天河2號一個計算節點由2片Xeon E5和3片Xeon PHI，理論雙精浮點性能為3.42T Flops，功耗為1190W，理論雙精浮點性能與功耗的比值為2.87GFlops/W。

相同功耗下使用8片Xeon E5隻能獲得1696Gflops的理論雙精浮點性能，理論雙精浮點性能與功耗的比值為1.42GFlops/W。

從數據可以看出，在同等功耗下，在使用Xeon PHI加速後，理論雙精浮點性能與是只使用Xeon E5的2倍。

正是因為異構計算在理論上有著諸多的優勢，一些媒體將「CPU+XXX」稱為下一代處理器。

指令集自主開發

HSA協會正在推動異構計算向各個方面普及，而華夏芯則是其中的一份子，共同推動異構計算向越來越多的領域普及。

也許很多人從來沒有聽說過華夏芯這樣一家公司，但該公司確實是中國第一家從事異構計算處理器IP核設計的集成電路企業——華夏芯公司是一個定位於全球市場的中國公司，研發團隊的來源也是全球化，但是從技術到人才都掌握在華夏芯手中，比如華夏芯的3合1「 Unity」體系架構是其獨創技術，在同行業中也處於領先地位。

更難得的是，華夏芯並沒有像一些商業公司那樣購買ARM指令集，而是公司自主開發的指令集、微結構和工具鏈。

因此，在自主創新能力上，和一些購買ARM IP授權開發所謂「國產」CPU的國內廠商有著本質上的區別。

可以對外授權IP

華夏芯公司最近發布了一系列新的IP授權產品，在全球範圍授權IP，為客戶提供一流的處理器設計技術。

所有華夏芯的處理器均支持HSA。

對此，華夏芯的董事長李科奕表示，「我們很高興地看到華夏芯的新IP核通過了PRM HSA一致性測試，面向工業、物聯網、高級駕駛輔助系統（ADAS）和嵌入式系統，該IP核對功耗進行了優化並向全球提供許可」。

據了解，華夏芯還是中國唯二的可以對外授權IP的處理器公司(另一家是龍芯)，在中國大多數CPU公司還處於購買國外IP做集成的時代，華夏芯能夠自己開發IP並且能夠對外授權就顯得尤為難得。

目前，華夏芯的CPU核可以通過IP授權的方式提供給客戶，第一款CPU已經在台積電使用28nm HPC製成工藝流片，2016年第3季度提供給潛在客戶作為評估或開發之用。

在技術創新上可圈可點

本次在矽片上實現的IP核是華夏芯3合1「 Unity」體系架構的首次實現。

Unity具有包括圖像和視頻處理在內的多維信號處理能力。

華夏芯美國研發中心的CTO Mayan Moudgill博士表示，「矢量處理長度可依據矢量計算的需求動態設置，最大配置達到64KB，滿足各種智能化應用和高性能計算對並行計算的要求，保證了指令架構的穩健性和軟體代碼的移植性。

變長矢量處理單元（VPU）在進行大量數據處理的同時，結合了低功耗、亂序執行流水線等多項先進技術，從而使多個控制線程高效地執行」。

值得關注的是，在華夏芯面向全球發布上述消息2天之後，ARM也發布了與其類似的V8-A的矢量擴展架構（SVE），其技術特徵與華夏芯推出的VPU單元極為相似。

這說明，真正從事自主創新的國產處理器設計公司完全可以在核心技術上達到國際領先水平，其創新能力要遠遠優於那些通過IP授權設計CPU的公司，畢竟後者在自主創新的空間上受到授權許可方極其嚴苛的各種限制和制約。

和SOC有哪些不同

在市場上有很多SOC也集成了CPU、GPU、DSP等計算單元，比如像高通驍龍晶片、華為海思麒麟晶片都集成了CPU、GPU和DSP。

那麼華夏芯與這些SOC有哪些不同呢？

之前提到的SOC的CPU、GPU、DSP的指令架構不同，微架構不同，工具鏈不同，是基於多核集成做出來的異構多核晶片，它們往往採用作業系統完成多核、多任務之間的同步與協調，因而會影響效率。

在這裡特彆強調一下，傳統的SOC多核編程非常難，雖然在物理上實現了單晶片多核集成，但是在開發習慣和流程上與傳統的板上集成系統沒有太大的不同，即性能不高，功耗不小，多套工具，多個團隊，開發困難，優化更難。

相比之下，基於華夏芯Unity架構的晶片單核已經具備CPU、IVP(image and video processor)、DSP的處理能力，而且是一套指令架構，一套微架構，一套工具鏈。

在做多核擴展、硬體加速器和FPGA的整合工作時，華夏芯的Utility體系架構將完全遵循HSA的規範，可以重用HSA的軟體生態系統。

因此，華夏芯的3合1做法在功耗、成本、性能、軟體開發門檻、團隊規模等方面都有巨大的優勢。

將被用於機器學習

由於機器學習的算法在許多應用中被使用，且大多數算法代理(agent)需要高度並行計算，這就導致HSA平台正是這些算法的理想選擇，特別是華夏芯CPU+DSP+IVP的特性使其擁有性能功耗比方面的優勢。

也正是因此，Parmance公司計劃與華夏芯在ML-HSA項目上進行合作——該項目面向機器學習和深層神經網絡，並針對華夏芯此前發起的開源gccbrig項目進行優化，gccbrig項目為任何支持GCC的平台提供編譯（終結轉換）功能。

至於華夏芯是否會遭遇軟體生態的掣肘，HSA協會主席兼華夏芯美國研發中心的CEO John Glossner博士認為，HSA的成員公司無需單獨建設生態系統，而是由包括全球主要處理器廠商在內的HSA聯盟一起共建生態系統，在這種情況下，成功的機率要高很多。

「在過去的四年中，HSA聯盟已經開發了硬體和軟體基礎架構來支持異構系統。

開發者生態系統支持編譯器、運行時（runtime）等開源實現。

HSA聯盟還致力於提供跨HSA平台的可移植應用。

我很高興華夏芯能夠參與HSA開發者和應用編程生態系統」，John表示。

結語

雖然在CPU、GPU、DSP等傳統晶片上，中國與西方還有這比較大的差距，但在異構計算處理器上，中國與國際先進水平差距小，甚至在某些領域還處於領先，比如繼天河2號之後,國產超級計算機神威太湖一號再次登頂世界TOP500，成為世界上運算速度最快的計算機。

本次華夏芯成功研發的異構計算處理器則是中國在該領域的有益嘗試。

在此，筆者衷心祝願華夏芯以及龍芯、申威等從事自主創新的處理器公司能夠在我們這一代人的手上完成國產自主處理器的創新和領先，徹底解決國家信息安全受制於人，信息產業發展受制於人的困境。

（作者微信公眾號：tieliu1988）

本文系觀察者網獨家稿件，文章內容純屬作者個人觀點，不代表平台觀點，未經授權，不得轉載，否則將追究法律責任。

關注觀察者網微信guanchacn，每日閱讀趣味文章。