用Habana取代Nervana!英特爾為何這樣做?

文章推薦指數: 80 %
投票人數:10人

近日,Intel宣布了在AI領域的一個新動作:新近收購的Habana的系列產品將取代原定的伺服器端AI加速晶片Nervana Spring Crest NNP-T,而Spring Crest NNP-T系列將停止開發。

本文將對Intel的這個決定做深入解讀。

Intel收購Nervana:Intel在AI領域的第一個大動作

我們首先分析一下Nervana Spring Crest系列產品的由來。

為此,我們需要先介紹一下Nervana Systems這家三年前被Intel收購的公司。

Nervana Systems成立於2014年,是一家在AI尚未真正成為風口時就宣布做AI底層架構的初創公司,其投資人包括DCVC、Lux等頂級矽谷風投。

2015年,Nervana在深度學習領域發布了其主要產品,即深度學習底層框架Neon。

Neon是一個為深度學習仔細優化的底層框架,在算子層級擁有很高的效率。

Neon最初是運行在Nvidia GPU上,然而其性能比起Nvidia的親兒子CuDNN都要強不少。

2015年正是Caffe等深度學習框架火熱的時候,而Neon憑藉其卓越的性能自然獲得了大家的關注

在憑藉Neon一炮而紅後,Nervana在2016年初宣布了其更加野心勃勃的計劃,即Nervana Cloud。

在Nervana Cloud中,Nervana將會把Neon框架運行在其為Neon專門優化的Nervana Engine晶片上。

Nervana宣布這樣的組合將會實現10倍於Nvidia Titan X的性能。

可以說,在大多數半導體公司對於AI還持觀望態度的2016年初,Nervana宣布這樣大計劃可謂是站在了時代的前沿。

而且,Nervana對於市場的判斷非常準確:因為就在不久之後,AI晶片就成為了為整個行業公認的風口,而Nervana也在2016年下半年被Intel以4億美元收購。

在收購的時候,Nervana並沒有發布任何晶片細節:我們可以估計在收購時,大機率Nervana還只有一個晶片架構設計,並沒有真正的晶片原型,更沒有晶片產品。

在Nervana被Intel收購之後,其產品也逐漸融入Intel的產品路線圖。

然而,Nervana預想中的Nervana Engine進度並不順利。

在被收購後,Nervana Engine重新定名為Crest系列。

2017年初,Intel發布了Nervana Lake Crest的一些細節,並且宣布2017年上半年將會有晶片成品。

到了2018年中,Intel宣布Lake Crest只是一個試用版的原型產品,而正式的晶片產品命名為Spring Crest,將會於2019年正式發售。

在那個時候,Lake Crest的性能指標為12核,32GB HBM內存,峰值算力為38TOP/s。

在2019年八月的Hot Chips,Intel又發布了Nervana晶片的相關更新:Nervana將發售兩種晶片,一種是針對伺服器端訓練應用的Spring Crest NNP-T,它將具有119TOPS的峰值算力,並且通過CoWoS高級封裝技術實現多晶片互聯;而另一款則是針對邊緣計算的Spring Hill NNP-I,功耗10W,能效比為4.6TOPS/W。

然而,在2019年我們並未得到Spring Crest系列真正商用的消息,直到最近才得到它已經被取消的新聞。

Intel在2017年發布的Nervana Lake Crest架構,擁有Tensor-based architecture、Flexpoint、Silicon Interposer等多個熱門詞彙

靠譜的Habana

相比產品遲遲不能量產的Nervana,來自以色列的初創公司Habana可以說是實在也靠譜多了。

Habana的晶片分為兩個系列,即針對訓練的Gaudi系列和針對推理的Goya系列。

與Nervana最大的不同在於,Habana的兩個晶片系列目前都已經有成品晶片供客戶使用,目前據悉已經收穫了一些數據中心客戶的青睞。

Habana的晶片架構可以用「實在」來概括。

其架構並沒有用許多花哨的概念性技術——在技術白皮書中,Habana直接明了地告訴大家其架構就是VLIW SIMD,一種廣為人知的架構。

VLIW和SIMD技術早在上世紀就已經提出,到今天已經擁有超過20年的歷史。

其中,SIMD(單指令流多數據流)架構的核心是利用數據並行性,讓處理器只需要一條指令就能處理大量並行數據,該技術早已或多或少地應用在高性能計算處理器中(例如GPU使用的SIMT技術可以認為是SIMD技術的一種衍生)。

SIMD對於存在大量數據並行的深度學習來說非常合適,這也是Habana在其深度學習加速晶片中使用SIMD的主要原因。

VLIW技術(超長指令字)則是另一個用於並行計算的重要技術,其核心是讓編譯器去找出在一個指令中能並行執行並充分利用處理器資源的多個計算操作。

在通用計算時代,VLIW曾遭遇了一次失敗(本世紀初的Intel的Itanium系列),因為在通用計算時代程序中會有大量的分支判斷,從而造成靜態編譯器難以預測可以並行操作的指令,造成性能損失。

然而,VLIW並未被人拋棄,在20年間VLIW在DSP等計算較為規整的應用領域獲得了一席之地,直到今天深度學習時代又重現江湖。

在深度學習應用中,計算很規整,因此編譯器可以很好地預測操作並行性並作相應調度。

而一旦使用VLIW,則用於深度學習加速的處理器可以省去傳統超標量處理器中複雜的片上硬體調度模塊,從而可以把晶片面積留給真正用於計算的單元。

可以說Habana使用了兩個廣為人知(但是非常適合深度學習)的技術實打實地把晶片做了出來,並且在工程上把細節做到了完美。

事實上,我們認為Habana晶片的工程量並不小,尤其是在硬體之外的軟體編譯器部分——因為VLIW需要一個非常高效的編譯器才能保證其性能,即使是在計算較規整的深度學習應用,做好這樣的編譯器也並不容易。

基於其紮實的產品,Habana已經開始了與多個雲端數據中心客戶的合作,並且於去年底被Intel收購。

Intel需要什麼樣的AI晶片產品

對於Intel來說,在錯過了移動計算之後,人工智慧時代不能再錯過了。

目前來看,Intel在人工智慧領域的終端計算(收購Movidius)、邊緣計算和雲端計算都有布局,但是重中之重還是利用Intel一直以來在雲數據中心的強勢地位來確保打下雲計算人工智慧晶片市場。

這也是它接連收購Nervana和Habana這兩家雲端人工智慧晶片公司原因。

那麼,Intel究竟需要什麼樣的晶片產品呢?首先,Intel需要一個能按時交付不跳票的產品。

在這個時間點上,雲端人工智慧晶片在幾年內成為數據中心的剛需已成定局,如果Intel沒法在近期打破Nvidia的壟斷真正打入雲端人工智慧晶片市場,那麼未來想要打入會越來越困難。

更關鍵的是,目前雲數據中心的幾大巨頭都在自己布局晶片,例如Google已經有了TPU,Amazon、阿里巴巴自研的深度學習加速晶片也已經流片完成,騰訊也投資了本土的GPU初創公司燧原,因此如果等到幾年後雲數據中心都開始使用自研晶片的時候,Intel就更難打入這個市場了。

這也是Intel使用已經有產品的Habana替代遲遲不能交付的Nervana最關鍵的原因。

其次,從技術上來說,雲端晶片最關鍵的門檻在於可擴展性,即如何能保證雲端晶片在大規模部署(包括一機多卡,多機等情形)的時候,其總體性能可以保持接近線性增長。

可擴展性門檻高的原因是它是一個系統工程,並非是把單晶片性能做好就行了——要做到可擴展性,需要在設計晶片的同時就考慮其與其他晶片通信的能力,同時需要在軟體上也給予大量的支持才能讓整個系統的性能充分發揮。

這事實上需要非常高的工程量,同時也需要團隊能對於整個分布式系統有深入的理解才能把系統做好。

我們看到,Habana在這方面交出了令人滿意的答卷:Habana的晶片上自帶RDMA模組,因此可以支持大規模的分布式計算;另外,在設計底層編譯器和軟體架構的時候也充分考慮了軟硬體協同系統設計,因此Habana的可擴展性非常好。

根據官方公布的數字,其分布式總體性能甚至在處理器數量大於600的時候也能接近線性,從而比起同樣處理器數量的Nvidia V100 GPU,其訓練性能提高了接近4倍,這是一個非常了不起的結果,其中必定包含了大量晶片和軟體/算法工程師的努力。

綜合以上的分析,我們認為Intel用Habana Gaudi系列產品代替原計劃中的Nervana Spring Crest可以概括為是「高質量系統工程的勝利」。

之後Intel在雲端人工智慧晶片領域能否真正打開市場,讓我們拭目以待。

今天是《半導體行業觀察》為您分享的第2209期內容,歡迎關注


請為這篇文章評分?


相關文章 

誰有機會成為人工智慧時代的晶片巨頭?

如果你關注人工智慧那你一定會好奇,曾經一個只是負責在螢幕上繪製圖像的「圖形處理單元」,如今已經肩負起解決複雜計算的重任,這就是NVIDIA,在24歲的時候,成為科技界最熱門的企業之一。可以認為,...