忘掉酷睿和驍龍:人工智慧時代你該認識這些晶片

文章推薦指數: 80 %
投票人數:10人

如果你今天問身邊懂科技的朋友「未來是什麼時代?」他八成會告訴你是人工智慧的時代。

已經開發了數十年,但在近幾年得到迅猛發展的深度學習神經網絡技術,正在驅動一次人工智慧革命。

而革命的對象正是微信、Facebook 等主流科技產品背後的那些科技公司。

新的革命需要新的武器。

酷睿和驍龍們不能滿足需求,人工智慧計算需要新的晶片。

當我們談起處理器,我們過去談的是酷睿、GTX 和驍龍——現在是時候了解一些人工智慧時代的晶片了。

通過本文,我將用比較通俗易懂的語言為你介紹幾款主流的深度學習加速處理器。

GPU,也就是我們常說的顯卡,得益於其硬體架構對並行計算支持比較好,最一開始大家都用 GPU 來搞深度學習。

一個很經典的例子就是斯坦福教授吳恩達跑到 Google,帶隊用大量 GPU 做出了一個專門跑神經網絡的大規模計算集群,也就是後來的 Google 大腦。

但在深度學習專家眼中,GPU 仍不是最優的答案。

它的性能很好,但耗電驚人。

而且另一個搞笑的原因是,由於挖比特幣和以太坊需要,顯卡到處都缺貨,深度學習研究者經常買不到或者買不起。

神啊,賜他們一台不挖礦,只跑深度學習的處理器可好?

即將前往麻省理工學院 (MIT) 擔任助理教授的深度學習專家韓松告訴PingWest 品玩,深度學習的計算模式和常規計算有很大不同,高度穩定且不需要很高精確性。

「1 乘以 1 可以不等於一」,這是其他計算不能允許的。

另一方面,深度學習專門硬體的特點是計算高效,缺點是很貴,需要有大量需求開發和使用才比較經濟,韓松指出,現在深度學習應用的已經非常廣,給人工智慧開發專門的計算硬體是值得的。

Facebook 人工智慧研究院院長燕樂存 (Yann LeCun),20 多年前在貝爾實驗室就開發過一款名叫 ANNA 的人工智慧專門晶片。

那時他還在做光學字符識別 (OCR) 研究,而 ANNA 識別字符的速度達到了驚人的 1000 個/秒,比同時代其他處理器都快得多。

你也可以說,ANNA 是最早的「人工智慧晶片」,或者更準確來說,深度學習加速處理器之一。

現在?人工智慧晶片多到一雙手已經數不過來了。

幾乎每一家過去的「軟體」或者「服務」公司,那些跟硬體一直沒太大關係的大型科技公司,比如 Google、亞馬遜、微軟,都已經開始使用,或者正在研發自己的深度學習加速處理器。

Google 的人工智慧驅動著每一次搜索的結果展現,Facebook 用人工智慧來優化用戶的時間線,在用數千種語言發布的內容之間互譯,騰訊也在西雅圖設立了實驗室進行人工智慧基礎研究,嘗試將其用在微信等用戶過億的產品中。

而這種變化對晶片行業的巨頭們帶來了新的衝擊,他們有的發現自己已經過時了,有的正在極速追趕 Google,通過收購的方式拓展自己的產品線,在人工智慧晶片市場還未開始論資排輩之前,就先占上一把交椅。

Google:TPU

是什麼: Tensor Processing Unit(張量處理單元),是 Google 開發的專門目的集成電路 (ASIC) 。

性能:TPU 已經開發出了第二代,每顆帶寬 600GB/s,算力達到 45 TFLOPS (8位整數)。

它的模組化能力出眾,Google 的用法是將 4 顆 TPU 放在一塊電路板上,組成一個 180 TFLOPS 的模組「Cloud TPU」,用它們來替換深度學習雲機房裡的 CPU 和 GPU,單機最多可以拼接 256 塊 Cloud TPU,算力達到驚人的 11.5 PFLOPS(下圖)。

用途:前面提到,Google 過去用顯卡組建大規模計算集群,能耗較高,訓練速度較慢,該公司需要一個專門的計算架構,去更高效地訓練和使用深度神經網絡。

所以 Google 開發了 TPU。

TPU 於面向大規模低精度的深度學習計算而設計和優化,適合神經網絡的訓練和推理(在具體用途和場景中運行神經網絡)。

現在,TPU 不僅 Google 員工的內部工作系統,還支持著搜索、照片、翻譯、街景等 Google 旗下產品。

就連擊敗了李世乭、柯潔的圍棋人工智慧程序 AlphaGo,也運行在 TPU 上。

微軟:HPU 和「腦波計劃」DPU

是什麼:HPU 是微軟在混合現實頭顯 HoloLens 里自行設計,並由合作夥伴生產的「協處理器」。

具體是用一塊 FPGA(現場可編程門陣列),一種非常靈活的半定製化電路實現的。

「腦波計劃」(Project Brainwave) 則是微軟前不久剛剛宣布的人工智慧硬體加速計劃,包括一個大量晶片組成的分布式計算架構,和一套直接運行在晶片上的「作業系統」。

腦波計劃的硬體核心是 DPU (DNN Processing Unit),也即深度神經網絡處理單元——本質上還是 FPGA。

性能:HoloLens 一代內置的 HPU,能夠在 10W 功耗下提供 1TFLOPS 算力。

微軟上個月剛剛宣布了新一代 HPU,具體細節未知,但可以預料到的是功耗會進一步降低,性能會繼續提高。

至於「腦波計劃」,它的信息十分有限,但看起來支持多種 FPGA,目前微軟展示的技術用的是英特爾的 14 納米製程 FPGA。

這種晶片單顆計算力約 10 TFLOPS(單精度),功效為 80GFLOPS/W。

用途:HoloLens 一代已經內置了一塊英特爾的 CPU 和集成 GPU,為什麼它還需要 HPU?其實,作為混合現實或者增強現實頭顯,HoloLens 需要確保佩戴者的舒適,降低運動和姿態變化和畫面變化的延時,所以它需要結合傳感器數據進行海量的計算。

但 CPU 和 GPU 主要跑作業系統(Windows 10)和處理圖像,沒有多餘的算力給傳感器。

如果讓它們來做這部分的計算,不但延時高用戶會眩暈,也更費電,還搶走了作業系統的算力,提高了藍屏危險……

HPU 就是用來做這部分工作的。

而在 HoloLens 二代里,微軟打算讓 HPU 承擔更複雜的任務:本地運行深度神經網絡。

根據有限的信息,HPU 二代可以高功效運行類型非常豐富的深度神經網絡,為 HoloLens 加入更多人工智慧功能(比如本地圖像識別、語音處理等)開了大門。

至於「腦波計劃」,從同樣有限的信息來看,它應該是微軟為擴展自己的人工智慧和雲計算生態,和 Google TPU 抗衡而推出的。

它的用途和 TPU 應該也不會有太大差異,無外乎對微軟自己的產品,以及其團隊的科研提供計算支持。

微軟的雲計算服務一直在使用 FPGA,所以向 「腦波計劃」遷移應該比較輕鬆。

它支持微軟自己的 CNTK 深度學習框架,同時也支持競爭對手 Google 的 TensorFlow 框架。

英偉達:Tesla 深度學習處理器

是什麼:英偉達是顯卡界的王者,但你可能不知道,現在的顯卡功能比玩遊戲多多了(別提挖礦!)GeForce 是玩遊戲的,Titan 系列則步入了 GPGPU 的範疇(可以玩遊戲也可以做神經網絡訓練)。

而 Tesla GPU 則是英偉達專為人工智慧開發的專業級伺服器端顯卡。

Tesla GPU 系列最新產品是 V100,V 的命名來自英偉達最新也最頂級的 12 納米 Volta 微架構。

性能:V100 所採用的 Volta 架構,是由 640 枚被英偉達命名為「張量核心」 (Tensor Cores) 組成的。

你不需要明白 Tensor Cores 到底是什麼,只需要知道它很厲害就行。

V100 的計算性能達到 15 TFLOPS(單精度)、120TFLOPS(深度學習),堪稱人工智慧晶片中的核彈了。

Tensor Cores

用途:Google 最一開始宣稱 TPU 比 GPU 快 30 倍,業界對其讚嘆有加。

但有個細節是,TPU 第一代只能推理,不能用來訓練神經網絡。

所以當時英偉達還可以說自己是唯一端到端(從訓練到推理再到自動駕駛等實際場景)的人工智慧計算方案提供者。

而 V100 就是這個方案的硬體核心。

不過英偉達推出 V100 沒多久,Google 就開了 I/O 2017 大會,選不了訓練和推理都能做的 TPU 二代。

即便如此,V100 仍然是截至目前最適合神經網絡科研的顯卡,用通用圖形處理器 (GPGPU/CUDA) 做深度學習這一派的絕對王者。

英特爾:FPGA、顯卡、至強融核和 VPU

是什麼:前面提到了微軟在使用的現場可編程門陣列 FPGA,正是由英特爾(所收購的 FPGA 巨頭 Altera,現在成為了英特爾 FPGA 部門) 所開發的。

簡單來說,因為 FPGA 對並行計算支持好,性能高,便於重新編程,功耗比 GPU、CPU 低,FPGA 也是人工智慧晶片的一個重要門派(另一家FPGA 巨頭 Xilinx 的人工智慧產品也很不錯,不過篇幅有限就不贅述了)。

英特爾還收購了 Nervana,組建了一個人工智慧部門。

這個部門的研究用的是顯卡。

「至強融核」 (Xeon Phi) 是英特爾另一款在伺服器端抗衡英偉達 GPU 的處理器產品。

它的最新款產品並行計算好適合深度學習,它的一個最主要優勢是「實惠」,不跑深度學習也可以當 CPU 來用(因為它本來就是 CPU)。

VPU 則是英特爾收購的另一家愛爾蘭公司 Movidius 所開發的低功耗深度學習加速晶片,特色是超小尺寸和功耗超低。

用 VPU 製成的神經計算棒

性能:英特爾 FPGA 產品線較複雜,性能多樣。

顯卡方面的信息也不多

至於 Xeon Phi,計算力大約在 3.5 TFLOPS 左右?

VPU 採用該公司自研的 Myriad 架構,最大的特色是能夠在 1W 或更低功率內,實現 100 GFLOPS 甚至更高算力。

用途:如果英偉達一發核彈毀滅全球,那麼英特爾就是通過多元化的產品線嘗試在深度學習市場上分一杯羹。

FPGA、Xeon Phi 都是直接推向消費者的雲端數據中心裡的產品,而身材纖細的 VPU 用途更多樣,安裝到了大疆無人機、聯想手機等產品中,也被英特爾直接做成了即插即用的深度學習計算棒,適合機器人開發等等。

Intel, Processors

其他公司

Facebook:也在開發自己的深度學習晶片,據說在和高通合作。

百度:XPU,本質是 FPGA,和Xilinx 合作

地平線:前百度深度學習研究院院長,也在開發人工智慧定製晶片,應該是 FPGA

蘋果:沒錯,蘋果也將在新款手機里加入「人工智慧協處理器」,信息極為有限。


請為這篇文章評分?


相關文章