「不含CPU,超越GPU 1000x」Wave公司發布數據流處理架構DPU

文章推薦指數: 80 %
投票人數:10人

新智元編譯

要建立起一家成功的晶片初創公司可不是件容易的事情,但有資本支持的Wave Computing,卻在一塊很小但很重要的市場——AI訓練晶片——牢牢站穩了腳跟,至少目前為止。

距離成立之初已經過去7年,目前該公司最新的DPU多核架構早先體驗項目終於開放,也讓Wave在聚焦深度學習數據流處理架構上更進一步。

日前,Wave Computing的CTO以及DPU(Dataflow Processing Unit)首席架構師Dr. Chris Nicol,在高性能晶片產業峰會Hot Chips上表示,他們的產品DPU在加速神經網絡訓練上能夠超越GPU 1000x——實在是很大膽的宣言,考慮到GPU在目前深度學習訓練市場的地位——Nicol相信早期用戶試用後能夠證實他們對DPU的這一宣稱。

Wave Computing的觀點是,數據流架構是有效訓練高性能神經網絡的唯一方式。

CPU在他們的系統中完全沒有出現。

2016年,Wave Computing 的 DPU剛剛揭幕時的設計信息

今年Hot Chips大會上揭幕的架構和設計資料:每秒Teraops峰值181,圖中展示的是8-bit運算,但也可以做16、24、32甚至64位。

有16,000個處理元件和超過8,00個算術單元,運行功率平均6.7 GHz。

採用獨特的自定時機制,使用全局異步/本地同步定時同步機制來解決各種處理元件之間定時的問題。

Nicol在將目標問題應用於多核(manycore)策略方面有豐富的經驗。

他幫助建立了澳大利亞研發機構NICTA,後者的重點是嵌入式多核系統和軟體,Nicol還在澳大利亞建立了貝爾實驗室研究所,與人共同開發了第一個多處理器SoC。

雖然深度學習訓練不是嵌入式計算問題,但Nicol表示,大規模訓練走出數據中心的那天終將到來

Wave還沒有開發符合這一思路的系統,但是Nicol的背景和聲明表明,Wave Computing公司可能展開研究,更多地推動神經網絡訓練走向邊緣。

這也是Wave的DPU在未來可能具有潛力的地方。

DPU擁有16,000個處理元件,超過8,000個算術單元——再次強調,沒有CPU在這裡協調。

所有的核都以6.7GHz運行(平均),使用粗粒度可重構架構——這個設計與其他深度學習硬體初創公司培育的產品大為不同。

DPU有獨特的自定時機制(self-timing mechanism),當沒有數據通過時,DPU進入睡眠狀態。

DPU可以看做一種混合FPGA和多核處理器,能處理數千個元素的數據流圖的靜態調度。

有關板上設計和核與核之間的通信,具體看下面。

DPU板上設計(上)與核與核之間的通信策略(下)

在接受 The Next Platform採訪時,Nicol說:「現在的異構計算有一個問題,主機或控制器總是在CPU上運行,加速器就聽之任之。

你的runtime API在CPU上運行,slave必須等CPU告訴它該做什麼它才做什麼。

我們想要徹底改變這一點。

Nicol指出,加速器架構(特別是GPU)有兩個問題,一是加載新的內核時有延遲,二是為了解決第一個問題,使用MCU在運行時將程序移入移出。

程序本身決定何時發生這種情況——程序與MCU通信,DMA將程序傳入和傳出晶片,並控制其傳播信號。

晶片上還有一個程序緩存。

最終的結果是,沒有CPU的架構在一個offload model中有更多的性能收益

像這樣的技術堆疊起來會實現非常厲害的架構。

當然,為了應對沒有CPU和其他靈活性問題,這還需要很多的修改,因此也使得DPU的性能和效率基準值得關注。

硬體之外,軟體也值得關注,特別是對於新的架構,軟體如何運作以及用戶如何進行交互也是不能不說的問題。

對此,Nicols說:「深度學習實際上是一個在深度學習軟體之上編程的數據流圖,在像我們這樣的處理器上運行,可以在運行時組裝數據流圖。

Nicols說:「工作流生成數據流圖來訓練網絡;例如,在運行(runtime)時,我們從TensorFlow獲取數據流圖,並在runtime直接將其轉換,在沒有CPU的情況下執行,並映射到數據流晶片上。

Inception V4在Wave編譯器處理示意圖

「這是一個粗粒度的可重構陣列,它類似於空間計算(spatial computing)。

」Nicol說:「當程序在多核處理器上運行時,仍然需要分區,這也是在晶片有這麼多核的問題所在。

OpenCL不是解決之道。

」Wave有自己的空間編譯器。

在他們緊密耦合處理器架構上,processor直接通信(相比使用register)速度更快。

Wave系統的早期試用數據

了解更多&編譯來源:

https://www.nextplatform.com/2017/08/23/first-depth-view-wave-computings-dpu-architecture-systems/


請為這篇文章評分?


相關文章 

人工智慧晶片發展的現狀及趨勢

來源:《科技導報》2018年第17期 作者:尹首一、郭珩、魏少軍自 1956年達特茅斯會議以來,關於人工智慧(artificial intelligence, AI)的研究由於受到智能算法、計算...

2016年人工智慧技術進展大盤點

作者簡介:趙永科,筆名卜居,CSDN博主,堅持寫技術博客8年。現就職於阿里雲計算有限公司,從事異構平台上的人工智慧算法優化與系統設計,熱愛讀書和NES遊戲。著有《深度學習:21 天實戰 Caff...