「不含CPU,超越GPU 1000x」Wave公司發布數據流處理架構DPU
文章推薦指數: 80 %
新智元編譯
要建立起一家成功的晶片初創公司可不是件容易的事情,但有資本支持的Wave Computing,卻在一塊很小但很重要的市場——AI訓練晶片——牢牢站穩了腳跟,至少目前為止。
距離成立之初已經過去7年,目前該公司最新的DPU多核架構早先體驗項目終於開放,也讓Wave在聚焦深度學習數據流處理架構上更進一步。
日前,Wave Computing的CTO以及DPU(Dataflow Processing Unit)首席架構師Dr. Chris Nicol,在高性能晶片產業峰會Hot Chips上表示,他們的產品DPU在加速神經網絡訓練上能夠超越GPU 1000x——實在是很大膽的宣言,考慮到GPU在目前深度學習訓練市場的地位——Nicol相信早期用戶試用後能夠證實他們對DPU的這一宣稱。
Wave Computing的觀點是,數據流架構是有效訓練高性能神經網絡的唯一方式。
CPU在他們的系統中完全沒有出現。
2016年,Wave Computing 的 DPU剛剛揭幕時的設計信息
今年Hot Chips大會上揭幕的架構和設計資料:每秒Teraops峰值181,圖中展示的是8-bit運算,但也可以做16、24、32甚至64位。
有16,000個處理元件和超過8,00個算術單元,運行功率平均6.7 GHz。
採用獨特的自定時機制,使用全局異步/本地同步定時同步機制來解決各種處理元件之間定時的問題。
Nicol在將目標問題應用於多核(manycore)策略方面有豐富的經驗。
他幫助建立了澳大利亞研發機構NICTA,後者的重點是嵌入式多核系統和軟體,Nicol還在澳大利亞建立了貝爾實驗室研究所,與人共同開發了第一個多處理器SoC。
雖然深度學習訓練不是嵌入式計算問題,但Nicol表示,大規模訓練走出數據中心的那天終將到來。
Wave還沒有開發符合這一思路的系統,但是Nicol的背景和聲明表明,Wave
Computing公司可能展開研究,更多地推動神經網絡訓練走向邊緣。
這也是Wave的DPU在未來可能具有潛力的地方。
DPU擁有16,000個處理元件,超過8,000個算術單元——再次強調,沒有CPU在這裡協調。
所有的核都以6.7GHz運行(平均),使用粗粒度可重構架構——這個設計與其他深度學習硬體初創公司培育的產品大為不同。
DPU有獨特的自定時機制(self-timing mechanism),當沒有數據通過時,DPU進入睡眠狀態。
DPU可以看做一種混合FPGA和多核處理器,能處理數千個元素的數據流圖的靜態調度。
有關板上設計和核與核之間的通信,具體看下面。
DPU板上設計(上)與核與核之間的通信策略(下)
在接受 The Next Platform採訪時,Nicol說:「現在的異構計算有一個問題,主機或控制器總是在CPU上運行,加速器就聽之任之。
你的runtime API在CPU上運行,slave必須等CPU告訴它該做什麼它才做什麼。
我們想要徹底改變這一點。
」
Nicol指出,加速器架構(特別是GPU)有兩個問題,一是加載新的內核時有延遲,二是為了解決第一個問題,使用MCU在運行時將程序移入移出。
程序本身決定何時發生這種情況——程序與MCU通信,DMA將程序傳入和傳出晶片,並控制其傳播信號。
晶片上還有一個程序緩存。
最終的結果是,沒有CPU的架構在一個offload model中有更多的性能收益。
像這樣的技術堆疊起來會實現非常厲害的架構。
當然,為了應對沒有CPU和其他靈活性問題,這還需要很多的修改,因此也使得DPU的性能和效率基準值得關注。
硬體之外,軟體也值得關注,特別是對於新的架構,軟體如何運作以及用戶如何進行交互也是不能不說的問題。
對此,Nicols說:「深度學習實際上是一個在深度學習軟體之上編程的數據流圖,在像我們這樣的處理器上運行,可以在運行時組裝數據流圖。
」
Nicols說:「工作流生成數據流圖來訓練網絡;例如,在運行(runtime)時,我們從TensorFlow獲取數據流圖,並在runtime直接將其轉換,在沒有CPU的情況下執行,並映射到數據流晶片上。
」
Inception V4在Wave編譯器處理示意圖
「這是一個粗粒度的可重構陣列,它類似於空間計算(spatial computing)。
」Nicol說:「當程序在多核處理器上運行時,仍然需要分區,這也是在晶片有這麼多核的問題所在。
OpenCL不是解決之道。
」Wave有自己的空間編譯器。
在他們緊密耦合處理器架構上,processor直接通信(相比使用register)速度更快。
Wave系統的早期試用數據
了解更多&編譯來源:
https://www.nextplatform.com/2017/08/23/first-depth-view-wave-computings-dpu-architecture-systems/
人工智慧晶片發展的現狀及趨勢
來源:《科技導報》2018年第17期 作者:尹首一、郭珩、魏少軍自 1956年達特茅斯會議以來,關於人工智慧(artificial intelligence, AI)的研究由於受到智能算法、計算...
谷歌、蘋果、華為、英特爾、三星等巨頭為何都在發力自研AI晶片?
晶片是指內含集成電路的矽片,承擔運算和存儲等功能。人工智慧的是核心是機器學習,機器學習是利用算法來解析海量數據,不斷學習,從而做出決策和預測。現今數據量已不是問題,關鍵看運算速度,這對傳統架構和...
2016年人工智慧技術進展大盤點
作者簡介:趙永科,筆名卜居,CSDN博主,堅持寫技術博客8年。現就職於阿里雲計算有限公司,從事異構平台上的人工智慧算法優化與系統設計,熱愛讀書和NES遊戲。著有《深度學習:21 天實戰 Caff...
51連接器|全球人工智慧晶片公司大盤點,我國有哪些企業
AI晶片分類:從功能來看,可以分為Training(訓練)和Inference(推理)兩個環節;從應用場景來看,可以分成「Cloud/DataCenter(雲端)」和「Device/Embedd...