一起讀研報(007):人工智慧之7-獨角獸(晶片)

文章推薦指數: 80 %
投票人數:10人

  引言:關於晶片方面的獨角獸,可能許多人會馬上說英偉達、google、或寒武紀,但又誰可以或者膽敢忽略華為的麒麟970、全球首款人工智慧晶片呢?

全球首款人工智慧晶片:麒麟970

  在英特爾晶片壟斷PC時代、ARM晶片稱霸移動網際網路時代的歷史進程中,晶片作為產業鏈最上游, 是行業先導指標。

核心晶片決定一個計算時代的基礎架構!當今谷歌、微軟、IBM、Facebook、NVIDIA(英偉達)等IT巨頭之所以紛紛投巨資加速人工智慧核心晶片的研發,都是意圖從源頭上掌控核心晶片架構,取得新計算時代主導權。

  一、智能晶片的時代需求

  1、人工智慧計算需要對海量數據並行計算

  隨著2006年Hinton提出的深度學習的技術,以及在圖像、語音識別和其他領域內取得的一些成功,第三次人工智慧的浪潮終於正式被引爆!那麼,「深度學習」究竟是何方神聖,居然引領了新一輪生產力的革命?機器學習是人工智慧的分支,指的是使機器利用統計模型對歷史大量輸入輸出數據進行學習(訓練, Training),在此基礎上對新輸入的變量做出智能推斷(Inference)。

而深度學習是當前最受關注的 AI 實現方式, 指的是利用深度神經網絡(DeepNeural Network)進行機器學習。

  深度學習採用的深層神經網絡模型參數和數據量眾多, 執行訓練和推斷的計算任務時,都需要進行海量大規模計算,其中訓練任務需要的計算量更大。

  2、摩爾定律逐漸失效, 傳統 CPU 執行 AI 計算成本高、效率低

  摩爾定律由 Intel 創始人之一摩爾於 1965 年提出,指的是成本不變的情況下,每18個月微處理器的電晶體數量將增加一倍,電晶體不變的情況下成本下降一半。

通常摩爾定律意味著晶片的處理能力也加倍。

然而目前半導體的製作工藝已經達到 10nm,想要進一步實現摩爾定律物就面著如量子效應和光刻效應等物理學上的困難,此外還存在設備成本和晶片開發成本提高的困難。

2016 年 7 月發布的半導體國際技術路線(ITRS)圖顯示電晶體的發展可能在之後 5 年內止步。

人類精密製造領域(半導體製造是目前為止人類製造領域的最巔峰)遇到矽基極限的挑戰,摩爾定律的放緩似乎預示著底層架構上的晶片性能的再提升已經出現瓶頸,而數據量的增長卻呈現指數型的爆發、以及深度學習處理任務時需要對海量數據進行大規模並行計算,它們之間的不匹配勢必會帶來技術和產業上的變革升級。

由於傳統 CPU 在進行深度學習計算時需要花費大量時間和能耗、占用大量硬體資源,因此人工智慧晶片的應運而生。

  二、智能晶片分類

  1、智能晶片的技術路徑分類

  人工智慧晶片設計的目的是從加速深度學習算法到希望從底層結構模擬人腦來更好實現智能。

目前人工智慧晶片涵蓋了三個階段:一是基於 FPGA 的半定製晶片,二是針對深度學習算法的全定製晶片,三是類腦計算晶片。

  ①GPU(Graphics Processing Unit)具有高並行結構,在處理圖形數據和複雜算法方面擁有比CPU更高的效率。

對比GPU和CPU在結構上的差異,CPU大部分面積為控制器和寄存器,而GPU擁有更多的ALU(ARITHMETIC LOGIC UNIT,邏輯運算單元)用於數據處理,這樣的結構適合對密集型數據進行並行處理。

CPU執行計算任務時,一個時刻只處理一個數據,而GPU在一個時刻可以並行處理多個數據。

因此程序在GPU系統上的運行速度將是在單核CPU上運行速度的幾十倍或更多。

  GPU作為應對圖像處理需求而出現的晶片,其海量數據並行運算的能力與深度學習需求不謀而合,因此,被最先引入深度學習。

  ②FPGA(Field Programmable Gate Array,現場可編程邏輯陣列)內部包含大量重複的IOB、CLB和布線信道等基本單元。

用戶可根據自身需求,用硬體描述語言(HDL)對FPGA的硬體電路進行設計。

每完成一次燒錄,FPGA內部的硬體電路就有了確定的連接方式,具有了一定的功能;輸入的數據只需要依次經過各個門電路,就可以得到輸出結果。

換句話說, FPGA 更接近 「I/O」的模式。

比如,數據採用 GPU 計算,它先要進入內存,並在 CPU 指令下拷入 GPU 內存,在那邊執行結束後再拷到內存被 CPU 繼續處理,這過程並沒有時間優勢; 而使用 FPGA 的話,數據 I/O 接口進入 FPGA,在裡面解幀後進行數據處理或預處理,然後通過 PCIE 接口送入內存讓 CPU 處理,一些很底層的工作已經被 FPGA 處理完畢了(FPGA 扮演協處理器的角色),且積累到一定數量後以 DMA形式傳輸到內存,以中斷通知 CPU 來處理,這樣效率就高得多。

  FPGA 相對於 CPU 與 GPU 有明顯的能耗優勢,主要有兩個原因。

首先,在 FPGA 中沒有取指令與指令解碼操作,在 Intel 的 CPU 裡面,由於使用的是 CISC 架構,僅僅解碼就占整個晶片能耗的 50%;在 GPU 裡面,取指令與解碼也消耗了 10%~20%的能耗。

其次,FPGA 的主頻比 CPU 與 GPU 低很多,通常 CPU 與 GPU 都在 1GHz 到 3GHz 之間,而 FPGA的主頻一般在 500MHz 以下。

如此大的頻率差使得 FPGA 消耗的能耗遠低於 CPU 與 GPU。

  Intel167 億美元收購 Altera, IBM 與 Xilinx 的合作,都昭示著 FPGA 領域的變革,未來也將很快看到 FPGA 與個人應用和數據中心應用的整合。

根據 Altera 內部文件顯示,Altera 很早就在研發使用 FPGA 針對深度學習算法的應用,並在 2015年 Intel的論壇上展示了產品的性能。

結論是在功耗和性能上相對同等級的 CPU,有較大的優勢。

CPU+FPGA 在人工智慧深度學習領域,將會是未來的一個重要發展方向。

  在晶片需求量小、深度學習算法暫未穩定或需要不斷疊代改進的情況下,用具備「可編輯」特性的FPGA晶片來實現半定製的人工智慧晶片是較好的選擇。

由於具備「可編輯」特徵,故基於 FPGA 的晶片又可以被稱為「半定製人工智慧晶片」。

  ③ASIC 是專用集成電路(Application Specific Integrated Circuit)的縮寫, ASIC 就是根據特定的需求而專門設計並製造出的晶片,因而在處理特定任務時,其性能、功耗等方面的表現優於 CPU、 GPU 和 FPGA。

基於ASIC 設計方法的晶片又可以被稱為「全定製人工智慧晶片」。

  GPU 作為圖像處理器,設計初衷是為了應對圖像處理中需要大規模並行計算。

因此,其在應用於深度學習算法時,仍然具有某方面的局限性。

比如「硬體結構固定不具備可編程性」。

深度學習算法還未完全穩定,若深度學習算法發生大的變化,GPU無法像FPGA一樣可以靈活的配製硬體結構;而且, 運行深度學習算法能效遠低於FPGA。

儘管FPGA倍受看好,甚至新一代百度大腦也是基於FPGA平台研發,但實際仍然存在不少局限。

比如:為了實現可重構特性,FPGA內部有大量極細粒度的基本單元,但是每個單元的計算能力(主要依靠LUT查找表)都遠遠低於CPU和GPU中的ALU模塊;另外,速度和功耗相對專用定製晶片(ASIC)仍然存在不小差距; 而且FPGA價格較為昂貴,在規模放量的情況下單塊FPGA的成本要遠高於專用定製晶片。

  而針對深度學習算法的全定製階段,晶片則採用 ASIC 設計方法全定製比較好,因為全定製晶片,無論性能還是功耗等指標都能做到了最優。

谷歌的TPU晶片和寒武紀深度學習處理器晶片就是這類晶片的典型代表。

  2、類腦計算晶片

  這類晶片的設計目的不再局限於僅僅加速深度學習算法,而是在晶片基本結構甚至器件層面上希望能夠開發出新的類腦計算機體系結構,比如會採用憶阻器和 ReRAM 等新器件來提高存儲密度。

這類晶片的研究離成為市場上可以大規模廣泛使用的成熟技術還有很大的差距,甚至有很大的風險,但是長期來看類腦晶片有可能會帶來計算體系的革命。

  這類晶片的典型代表是 IBM 的 Truenorh 晶片。

TrueNorth 處理器由 54 億個連結電晶體組成,構成了包含 100 萬個數字神經元陣列,這些神經元又可通過 2.56 億個電突觸彼此通信。

該晶片採用跟傳統馮諾依曼不一樣的結構,將內存、處理器單元和通信部件完全集成在一起,因此信息的處理完全在本地進行,而且由於本地處理的數據量並不大,傳統計算機內存與 CPU之間的瓶頸不復存在。

同時神經元之間可以方便快捷地相互溝通,只要接收到其他神經元發過來的脈衝(動作電位),這些神經元就會同時做動作實現事件驅動的異步電路特性。

由於不需要同步時鐘該晶片功耗極低: 16 個 TrueNorth 晶片的功耗僅為 2.5 瓦,僅與平板電腦相當。

  3、智能晶片的應用場景分類

  NVIDIA 首席科學家 William Dally將深度學習的計算場景分為三類,分別是數據中心的訓練、數據中心的推斷和嵌入式設備的推斷。

前兩者可以總結為雲端的應用,後者可以概括為終端的應用。

神經網絡的訓練所需的計算量大於推斷所需的計算量, 通常在雲端的推斷數據量高於嵌入式設備,因此對性能和功耗的要求也不同。

  雲端 AI 計算 GPU 是主流,終端應用要求低功耗, FPGA 和 ASIC 機會並存, ASIC 或是最佳選擇。

  三、晶片獨角獸

  不得不承認,有些公司,已初具獨角獸丰采,彎道超車,或許越來越難!

  1、英偉達

NvidiaGPUCloud

  英偉達(Nvidia) 是全球可編程圖形處理技術的領軍企業,公司的核心產品是 GPU 處理器。

英偉達通過 GPU 在深度學習中體現的出色性能迅速切入人工智慧領域,又通過打造NVIDIACUDA 平台大大提升其編程效率、開放性和豐富性,建立了包含 CNN、 DNN、深度感知網絡、 RNN、 LSTM 以及強化學習網絡等算法的平台。

根據英偉達公開宣布, 在短短兩年里,與 NVIDIA 在深度學習方面展開合作的企業便激增了近 35 倍,增至 3,400 多家企業,涉及醫療、生命科學、能源、金融服務、汽車、製造業以及娛樂業等多個領域。

  (1)可編程推理平台 TensorRT 疊代到第 3 代, 支持幾乎全部深度學習框架、自家的主流 GPU、拓展應用領域; BAT 等巨頭採用 NVIDIA 的推理平台TensorRT 是連接軟體(深度學習框架)和硬體(NVIDIA 的 GPU)的加速引擎,目前已疊代至第 3 代, 大幅減少推理過程的延遲現象。

TensorRT可確定每個 GPU 的最佳策略,對數值精度、網絡層和張量(Tensor)的去除及融合、快速內核以及內存管理進行優化。

TensorRT 3 進一步強化了推理方面的性能(如採用 INT8 整數而不是浮點數加速推理),支持全部的深度學習框架(Caffe、 TensorFlow 等)和自家的主流 GPU,可以用到雲、數據中心、 PC、汽車、機器人等。

BAT、京東、科大訊飛使用 NVIDIA 的推理加速平台都取得了良好的效果。

  (2)最新架構(Volta)的 GPU——Tesla V100 加入了 Tensor Core,強化AI 計算性能本次大會進一步介紹了 5 月發布的全新架構(Volta)的 GPU——TeslaV100。

V100 採用 12nm FinFet 工藝, 進一步優化了神經網絡計算的性能,加入了 Tensor Core(某種程度可以理解為借鑑了谷歌的 TPU),強化了 GPU的矩陣計算性能、降低了相應功耗。

浪潮、華為、聯想推出基於 HGX 的 GPU AI 伺服器; BAT 的公有雲部署了搭載 Tesla V100 的伺服器。

  通過與英偉達合作的公司就可以知道,英偉達早已霸氣側漏,而且TensorRT與GPU的「閉環」,使其成為GPU領域當之無愧的獨角獸。

  2、谷歌

   2016 年,谷歌首次公布了專為加速深層神經網絡運算能力而研發的晶片——TPU,在計算性能和能耗指標上,TPU 的表現都遠遠優於傳統 CPU、GPU 組合。

2017年 5 月 19 日凌晨舉行的谷歌 I/O 2017 大會上,谷歌正式發布了第二代 TPU。

新的晶片相比初代產品,在性能、應用、服務方面再一次實現突破。

  (1)性能:新一代 TPU 能夠同時應用於高性能計算和浮點計算。

並且最高可以達到每秒 180 萬億次的浮點運算性能。

相比而言,上周英偉達剛剛推出的 GPU Tesla2 V100,每秒只能達到 120 萬億次浮點運算。

  (2)應用:第一代 TPU 沒有特別提到組合應用、集群應用的功能,而且自身沒有存儲空間。

第二代在發布會上直接就展示了一個 包含 64 顆二代 TPU 晶片的 TPU pod 運算陣列。

這個運算陣列, 最多可以為單個 ML 訓練任務提供每秒 11.5 千萬億次的浮點計算能力,大大加速機器學習模型的訓練。

  (3)服務:從 Cloud TPU 的命名上面,也可以直觀地了解到,新一代的 TPU 將加入谷歌雲計算平台,並對外提供雲服務。

這也就意味著 TPU 不再只是谷歌內部的獨享服務,而將成為任何人都能輕鬆分享、應用的神器。

  谷歌圍繞機器學習研究、開源工具、基礎設施和人工智慧應用開發的 AI First 戰略。

Cloud TPU 是加速人工智慧部署的基礎設施;AutoML 代表著機器學習研究層面的前沿方向;TensorFlowLite 將促進人工智慧在移動端的部署;語音和圖像的結合代表著對多模態人機互動的探索;而應用了各種人工智慧技術的產品更新則是極大推動了將 AI 真正融入生活的進程。

  綜合布局、從TensorFlow到Cloud TPU的閉環,這就是獨角獸才具備的王者之風!

  3、華為

  9 月 2 日華為公布全球第一款智慧型手機 AI 晶片——麒麟 NPU(內臵於麒麟 970SoC)。

德國當地時間 9 月 2 日下午,華為消費者業務 CEO 余承東德國柏林國際電子消費品展覽會(IFA)上正式公布了全球首款搭載神經網絡處理器的 SoC——麒麟 970(Kirin 970),搭載該晶片的 Mate 10 即將發布。

麒麟 970 採用 10nm 製程,搭載 Cortex-A73(CPU)、 Mali-G72(GPU)和麒麟 NPU(神經網絡處理單元)。

其中麒麟 NPU(神經網絡處理器, Neural-network Processing Unit) 即負責專門處理 AI 計算的處理器。

據新智元報導,麒麟 NPU 採用了中科院寒武紀人工智慧 ASIC 的 IP指令集。

  在華為即將發布的 Mate 10 中,我們看到兩條信息:一是全球首款人工智慧手機,這表明中國在人工智慧應用方面已具備足夠的話事權;二是麒麟 NPU 採用了中科院寒武紀人工智慧 ASIC 的 IP指令集。

這是否給我們的發展提供了一個思路?這個思路就是中國企業想在人工智慧上實現彎道超車,可以先以「抱團」的形式出現,超車後再在各自的細分領域中成為獨角獸。

  4、群雄逐鹿

  (1) NVIDIA 產品向雲端和終端全覆蓋...

  (2) AMD 快速追趕 NVIDIA...

  (3)Google 推出兩代 TPU,推斷+訓練能力兼備...

  (4) Intel 內生+併購打造 AI 晶片產品組合:內生方面 Xeon Phi;外延方面,收購 Nervana、Altera、Movidius、Mobileye...

  (5) Xilinx 的 FPGA 被應用到雲端和終端...

  (6)寒武紀 ASIC 廣受關注,華為第一款手機端 AI 晶片據新智元報導採用寒武紀 IP。

寒武紀的發展方向包括智能終端和雲端:其中智能終端機方面,以 IP 技術授權為主。

雲端推出專用加速卡,將與中科曙光開展合作...

  (7)微軟、蘋果、高通、 IBM、 地平線機器人、深鑒科技等都在 AI 晶片有布局......

  一年?二年?三年?或更長時間?相信在不久的將來,人工智慧的晶片領域,將逐漸被細分和壟斷,在這過程之中,希望有更多的中國企業脫穎而出,成為晶片領域的獨角獸,分封一方諸侯!

  參考研究報告包括:

  1、《計算機行業行業深度分析人工智慧晶片研發攻略:芯際爭霸》,安信證券/20160621.

  2、《計算機行業人工智慧系列報告:華為全球首款AI移動晶片,AI晶片產業鏈迎來投資大機遇》,新時代證券/170904.

  3、《計算機行業人工智慧系列報告:英偉達GPU技術大會亮點解讀》,新時代證券/20170926.

  4、《半導體行業深度研究:人工智慧晶片,新架構改變世界》,天風證券/20170916.

  5、《計算機行業深度報告:A.I晶片~下一代計算革命基石》,東北證券/20170915.


請為這篇文章評分?


相關文章