日前，Wave Computing的CTO以及DPU（Dataflow Processing Unit）首席架構師Dr. Chris Nicol，在高性能晶片產業峰會Hot Chips上表示，他們的產品DPU在加速神經網絡訓練上能夠超越GPU 1000x——實在是很大膽的宣言，考慮到GPU在目前深度學習訓練市場的地位——Nicol相信早期用戶試用後能夠證實他們對DPU的這一宣稱。

Wave Computing的觀點是，數據流架構是有效訓練高性能神經網絡的唯一方式。

CPU在他們的系統中完全沒有出現。

2016年，Wave Computing 的 DPU剛剛揭幕時的設計信息

今年Hot Chips大會上揭幕的架構和設計資料：每秒Teraops峰值181，圖中展示的是8-bit運算，但也可以做16、24、32甚至64位。

有16,000個處理元件和超過8,00個算術單元，運行功率平均6.7 GHz。

採用獨特的自定時機制，使用全局異步/本地同步定時同步機制來解決各種處理元件之間定時的問題。

Nicol在將目標問題應用於多核（manycore）策略方面有豐富的經驗。

他幫助建立了澳大利亞研發機構NICTA，後者的重點是嵌入式多核系統和軟體，Nicol還在澳大利亞建立了貝爾實驗室研究所，與人共同開發了第一個多處理器SoC。

雖然深度學習訓練不是嵌入式計算問題，但Nicol表示，大規模訓練走出數據中心的那天終將到來。

Wave還沒有開發符合這一思路的系統，但是Nicol的背景和聲明表明，Wave Computing公司可能展開研究，更多地推動神經網絡訓練走向邊緣。

這也是Wave的DPU在未來可能具有潛力的地方。

DPU擁有16,000個處理元件，超過8,000個算術單元——再次強調，沒有CPU在這裡協調。

所有的核都以6.7GHz運行（平均），使用粗粒度可重構架構——這個設計與其他深度學習硬體初創公司培育的產品大為不同。

DPU有獨特的自定時機制（self-timing mechanism），當沒有數據通過時，DPU進入睡眠狀態。

DPU可以看做一種混合FPGA和多核處理器，能處理數千個元素的數據流圖的靜態調度。

有關板上設計和核與核之間的通信，具體看下面。

DPU板上設計（上）與核與核之間的通信策略（下）

在接受 The Next Platform採訪時，Nicol說：「現在的異構計算有一個問題，主機或控制器總是在CPU上運行，加速器就聽之任之。

你的runtime API在CPU上運行，slave必須等CPU告訴它該做什麼它才做什麼。

我們想要徹底改變這一點。

」

Nicol指出，加速器架構（特別是GPU）有兩個問題，一是加載新的內核時有延遲，二是為了解決第一個問題，使用MCU在運行時將程序移入移出。

程序本身決定何時發生這種情況——程序與MCU通信，DMA將程序傳入和傳出晶片，並控制其傳播信號。

晶片上還有一個程序緩存。

最終的結果是，沒有CPU的架構在一個offload model中有更多的性能收益。

像這樣的技術堆疊起來會實現非常厲害的架構。

當然，為了應對沒有CPU和其他靈活性問題，這還需要很多的修改，因此也使得DPU的性能和效率基準值得關注。

硬體之外，軟體也值得關注，特別是對於新的架構，軟體如何運作以及用戶如何進行交互也是不能不說的問題。

對此，Nicols說：「深度學習實際上是一個在深度學習軟體之上編程的數據流圖，在像我們這樣的處理器上運行，可以在運行時組裝數據流圖。

」

Nicols說：「工作流生成數據流圖來訓練網絡；例如，在運行（runtime）時，我們從TensorFlow獲取數據流圖，並在runtime直接將其轉換，在沒有CPU的情況下執行，並映射到數據流晶片上。

」

Inception V4在Wave編譯器處理示意圖

「這是一個粗粒度的可重構陣列，它類似於空間計算（spatial computing）。

」Nicol說：「當程序在多核處理器上運行時，仍然需要分區，這也是在晶片有這麼多核的問題所在。

OpenCL不是解決之道。

」Wave有自己的空間編譯器。

在他們緊密耦合處理器架構上，processor直接通信（相比使用register）速度更快。

Wave系統的早期試用數據

了解更多&編譯來源：

https://www.nextplatform.com/2017/08/23/first-depth-view-wave-computings-dpu-architecture-systems/