AI晶片三劍客 雲端終端雙場景各顯神通(上篇)

文章推薦指數: 80 %
投票人數:10人

AI(人工智慧)沉浮數十載,在「預期-失望-進步-預期」周期中破浪前行。

根據賽迪諮詢發布報告,2016年全球人工智慧市場規模達到293億美元。

我們預計2020年全球人工智慧市場規模將達到1200億美元,複合增長率約為20%。

人工智慧晶片是人工智慧市場中重要一環,根據英偉達,AMD,賽靈思,谷歌等相關公司數據,我們測算2016年人工智慧晶片市場規達到23.88億美元,約占全球人工智慧市場規模8.15%,而到2020年人工智慧晶片市場規模將達到146.16億美元,約占全球人工智慧市場規模12.18%。

人工智慧晶片市場空間極其廣闊。

晶片承載算法,是競爭的制高點

人工智慧的基礎是算法,深度學習是目前最主流的人工智慧算法。

深度學習又叫深度神經網絡(DNN:Deep Neural Networks),從之前的人工神經網絡(ANN:ArtificialNeural Networks)模型發展而來。

這種模型一般採用計算機科學中的圖模型來直觀表達,深度學習的「深度」便指的是圖模型的層數以及每一層的節點數量。

神經網絡複雜度不斷提升,從最早單一的神經元,到2012年提出的AlexNet(8個網絡層),再到2015年提出的ResNET(150個網絡層),層次間的複雜度呈幾何倍數遞增,對應的是對處理器運算能力需求的爆炸式增長。

深度學習帶來計算量急劇增加,對計算硬體帶來更高要求。

深度學習算法分「訓練」和「推斷」兩個過程。

簡單來講,人工智慧需要通過以大數據為基礎,通過「訓練」得到各種參數,把這些參數傳遞給「推斷」部分,得到最終結果。

「訓練」和「推斷」所需要的神經網絡運算類型不同。

神經網絡分為前向計算(包括矩陣相乘、卷積、循環層)和後向更新(主要是梯度運算)兩類,兩者都包含大量並行運算。

「訓練」所需的運算包括「前向計算+後向更新」;「推斷」則主要是「前向計算」。

一般而言訓練過程相比於推斷過程計算量更大。

一般來說,雲端人工智慧硬體負責「訓練+推斷」,終端人工智慧硬體只負責「推斷」。

「訓練」需大數據支撐並保持較高靈活性,一般在「雲端」(即伺服器端)進行。

人工智慧訓練過程中,頂層上需要有一個海量的數據集,並選定某種深度學習模型。

每個模型都有一些內部參數需要靈活調整,以便學習數據。

而這種參數調整實際上可以歸結為優化問題,在調整這些參數時,就相當於在優化特定的約束條件,這就是所謂的「訓練」。

雲端伺服器收集用戶大數據後,依靠其強大的計算資源和專屬硬體,實現訓練過程,提取出相應的訓練參數。

由於深度學習訓練過程需要海量數據集及龐大計算量,因此對伺服器也提出了更高的要求。

未來雲端AI伺服器平台需具備相當數據級別、流程化的並行性、多線程、高內存帶寬等特性。

「推斷」過程可在雲端(伺服器端)進行,也可以在終端(產品端)進行。

等待模型訓練完成後,將訓練完成的模型(主要是各種通過訓練得到的參數)用於各種應用場景(如圖像識別、語音識別、文本翻譯等)。

「應用」過程主要包含大量的乘累加矩陣運算,並行計算量很大,但和「訓練」過程比參數相對固化,不需要大數據支撐,除在伺服器端實現外,也可以在終端實現。

「推斷」所需參數可由雲端「訓練」完畢後,定期下載更新到終端。

傳統CPU算力不足,新架構晶片支撐AI成必須。

核心晶片決定計算平台的基礎架構和發展生態,由於AI所需的深度學習需要很高的內在並行度、大量浮點計算能力以及矩陣運算,基於CPU的傳統計算架構無法充分滿足人工智慧高性能並行計算(HPC)的需求,因此需要發展適合人工智慧架構的專屬晶片。

專屬硬體加速是新架構晶片發展主流。

目前處理器晶片面向人工智慧硬體優化升級有兩種發展路徑:(1)延續傳統計算架構,加速硬體計算能力:以GPU、FPGA、ASIC(TPU、NPU等)晶片為代表,採用這些專屬晶片作為輔助,配合CPU的控制,專門進行人工智慧相關的各種運算;(2)徹底顛覆傳統計算架構,採用模擬人腦神經元結構來提升計算能力,以IBM TrueNorth晶片為代表,由於技術和底層硬體的限制,第二種路徑尚處於前期研發階段,目前不具備大規模商業應用的可能性。

從技術成熟度和商業可行性兩個角度,我們判斷使用AI專屬硬體進行加速運算是今後五年及以上的市場主流。

雲端終端雙場景,三種專屬晶片各顯其能

我們把人工智慧硬體應用場景歸納為雲端場景和終端場景兩大類。

雲端主要指伺服器端,包括各種共有雲、私有雲、數據中心等業務範疇;終端主要指包括安防、車載、手機、音箱、機器人等各種應用在內的移動終端。

由於算法效率和底層硬體選擇密切相關,「雲端」(伺服器端)和「終端」(產品端)場景對硬體的需求也不同。

除CPU外,人工智慧目前主流使用三種專用核心晶片,分別是GPU,FPGA,ASIC。

GPU:先發制人的「十項全能」選手,雲端終端均拔頭籌。

GPU(Graphics Processing Unit)又稱圖形處理器,之前是專門用作圖像運算工作的微處理器。

相比CPU,GPU由於更適合執行複雜的數學和幾何計算(尤其是並行運算),剛好與包含大量的並行運算的人工智慧深度學習算法相匹配,因此在人工智慧時代剛好被賦予了新的使命,成為人工智慧硬體首選,在雲端和終端各種場景均率先落地。

目前在雲端作為AI「訓練」的主力晶片,在終端的安防、汽車等領域,GPU也率先落地,是目前應用範圍最廣、靈活度最高的AI硬體。

FPGA:「變形金剛」,算法未定型前的階段性最佳選擇。

FPGA(Field-Programmable Gate Array)即現場可編程門陣列,是一種用戶可根據自身需求進行重複編程的「萬能晶片」。

編程完畢後功能相當於ASIC(專用集成電路),具備效率高、功耗低的特點,但同時由於要保證編程的靈活性,電路上會有大量冗餘,因此成本上不能像ASIC做到最優,並且工作頻率不能太高(一般主頻低於500MHz)。

FPGA相比GPU具有低功耗優勢,同時相比ASIC具有開發周期快,更加靈活編程等特點。

FPGA於「應用爆發」與「ASIC量產」夾縫中尋求發展,是效率和靈活性的較好折衷,「和時間賽跑」,在算法未定型之前具較大優勢。

在現階段雲端數據中心業務中,FPGA以其靈活性和可深度優化的特點,有望繼GPU之後在該市場爆發;在目前的終端智能安防領域,目前也有廠商採用FPGA方案實現AI硬體加速。

ASIC:「專精職業選手」,專一決定效率,AI晶片未來最佳選擇。

ASIC(ApplicationSpecific Integrated Circuit)即專用集成電路,本文中特指專門為AI應用設計、專屬架構的處理器晶片。

近年來湧現的類似TPU、NPU、VPU、BPU等令人眼花繚亂的各種晶片,本質上都屬於ASIC。

無論是從性能、面積、功耗等各方面,AISC都優於GPU和FPGA,長期來看無論在雲端和終端,ASIC都代表AI晶片的未來。

但在AI算法尚處於蓬勃發展、快速疊代的今天,ASIC存在開發周期較長、需要底層硬體編程、靈活性較低等劣勢,因此發展速度不及GPU和FPGA。

本報告我們分別仔細分析雲端和終端兩種應用場景下,這三種專屬AI晶片的應用現狀、發展前景及可能變革。

1 雲端場景:GPU生態領先,未來多晶片互補共存

核心結論:GPU、TPU等適合併行運算的處理器未來成為支撐人工智慧運算的主力器件,既存在競爭又長期共存,一定程度可相互配合;FPGA有望在數據中心業務承擔較多角色,在雲端主要作為有效補充存在;CPU會「變小」,依舊作為控制中心。

未來晶片的發展前景取決於生態,有望統一在主流的幾個軟體框架下,形成雲端CPU+GPU/TPU+FPGA(可選)的多晶片協同場景。

(1)依託大數據,科技巨頭不同技術路徑布局AI雲平台

基於雲平台,各大科技巨頭大力布局人工智慧。

雲計算分為三層,分別是Infrastructure(基礎設施)-as-a-Service(IaaS),Platform(平台)-as-a-Service(Paas),Software(軟體)-as-a-Service(Saas)。

基礎設施在最下端,平台在中間,軟體在頂端。

IaaS公司提供場外伺服器,存儲和網絡硬體。

大數據為人工智慧提供信息來源,雲計算為人工智慧提供平台,人工智慧關鍵技術是在雲計算和大數據日益成熟的背景下取得了突破性進展。

目前各大科技巨頭看好未來人工智慧走向雲端的發展態勢,紛紛在自有雲平台基礎上搭載人工智慧系統,以期利用沉澱在雲端的大數據挖掘價值。

(2)千億美元雲服務市場,AI晶片發展潛力巨大

千億美元雲服務市場,雲計算硬體市場規模巨大。

雲計算的市場規模在逐漸擴大。

據Gartner的統計,2015年以IaaS、PaaS和SaaS為代表的典型雲服務市場規模達到522.4億美元,增速20.6%,預計2020年將達到1435.3億美元,年複合增長率達22%。

其中IaaS公司到2020年市場空間達到615億美元,占整個雲計算市場達43%,雲計算硬體市場空間巨大,而雲計算和人工智慧各種加速算法關係密切,未來的雲計算硬體離不開AI晶片加速。

雲端AI晶片發展潛力巨大。

根據英偉達與AMD財務數據,我們預計GPU到2020年在數據中心業務中將達到約50億美元市場規模。

同時根據賽靈思與阿爾特拉等FPGA廠商,我們預計2020年FPAG數據中心業務將達到20億美元。

加上即將爆發的ASIC雲端市場空間,我們預計到2020年雲端AI晶片市場規模將達到105.68億美元,AI晶片在雲端會成為雲計算的重要組成部分,發展潛力巨大。

(3)雲端晶片現狀總結:GPU領先,FPGA隨後,ASIC萌芽

AI晶片在雲端基於大數據,核心負責「訓練」。

雲端的特徵就是「大數據+雲計算」,用戶依靠大數據可進行充分的數據分析和數據挖掘、提取各類數據特徵,與人工智慧算法充分結合進行雲計算,從而衍生出伺服器端各種AI+應用。

AI晶片是負責加速人工智慧各種複雜算法的硬體。

由於相關計算量巨大,CPU架構被證明不能滿足需要處理大量並行計算的人工智慧算法,需要更適合併行計算的晶片,所以GPU、FPGA、TPU等各種晶片應運而生。

AI晶片在雲端可同時承擔人工智慧的「訓練」和「推斷」過程。

雲端晶片現狀:GPU占據云端人工智慧主導市場,以TPU為代表的ASIC目前只運用在巨頭的閉環生態,FPGA在數據中心業務中發展較快。

GPU應用開發周期短,成本相對低,技術體系成熟,目前全球各大公司雲計算中心如谷歌、微軟、亞馬遜、阿里巴巴等主流公司均採用GPU進行AI計算。

谷歌除大量使用GPU外,努力發展自己的AI專屬的ASIC晶片。

今年5月推出的TPU與GPU相比耗電量降低60%,晶片面積下降40%,能更好的滿足其龐大的AI算力要求,但由於目前人工智慧算法疊代較快,目前TPU只供谷歌自身使用,後續隨著TensorFlow的成熟,TPU也有外供可能,但通用性還有很長路要走。

百度等廠商目前在數據中心業務中也積極採用FPGA進行雲端加速。

FPGA可以看做從GPU到ASIC重點過渡方案。

相對於GPU可深入到硬體級優化,相比ASIC在目前算法不斷疊代演進情況下更具靈活性,且開發時間更短。

AI領域專用架構晶片(ASIC)已經被證明可能具有更好的性能和功耗,有望成為未來人工智慧硬體的主流方向。

(4)雲端GPU:雲端AI晶片主流,先發優勢明顯

發展現狀:GPU天然適合併行計算,是目前雲端AI應用最廣的晶片

GPU目前雲端應用範圍最廣。

目前大量涉足人工智慧的企業都採用GPU進行加速。

根據英偉達官方資料,與英偉達合作開發深度學習項目的公司2016年超過19000家,對比2014年數量1500 家。

目前百度、Google、Facebook 和微軟等IT巨頭都採用英偉達的GPU對其人工智慧項目進行加速,GPU目前在雲端AI深度學習場景應用最為廣泛, 由於其良好的編程環境帶來的先發優勢,預計未來仍將持續強勢。

GPU晶片架構脫胎圖像處理,並行計算能力強大。

GPU(GraphicsProcessing Unit),又稱視覺處理器,是之前應用在個人電腦、工作站、遊戲機、移動設備(如平板電腦、智慧型手機等)等晶片內部,專門用作圖像運算工作的微處理器。

與CPU類似可以編程,但相比CPU更適合執行複雜的數學和幾何計算,尤其是並行運算。

內部具有高並行結構(highly paralle lstructure),在處理圖形數據和複雜算法方面擁有比CPU更高的效率。

GPU較CPU結構差異明顯,更適合併行計算。

對比GPU和CPU在結構上的差異,CPU大部分面積為控制器和寄存器,GPU擁有更多的ALU(Arithmetic Logic Unit,邏輯運算單元)用於數據處理,而非數據高速緩存和流控制,這樣的結構適合對密集型數據進行並行處理。

CPU執行計算任務時,一個時刻只處理一個數據,不存在真正意義上的並行,而GPU具有多個處理器核,同一時刻可並行處理多個數據。

與CPU相比,GPU在AI領域的性能具備絕對優勢。

深度學習在神經網絡訓練中,需要很高的內在並行度、大量的浮點計算能力以及矩陣運算,而GPU可以提供這些能力,並且在相同的精度下,相對傳統CPU的方式,擁有更快的處理速度、更少的伺服器投入和更低的功耗。

在2017年5月11日的加州聖何塞GPU技術大會上,NVIDIA就已經發布了Tesla V100。

這個目前性能最強的GPU運算架構Volta採用台積電12nm FFN製程並整合210億顆電晶體,在處理深度學習的性能上等同於250顆CPU。

生態格局:英偉達壟斷GPU市場

抓住人工智慧契機,英偉達壟斷GPU市場。

英偉達目前占據全球GPU行業的市場份額超過70%,遠超AMD等競爭對手。

GPU 作為英偉達公司的核心產品占據其84%的收入份額。

英偉達應用領域涵蓋視頻遊戲、電影製作、產品設計、醫學診斷以及科學研究等各個門類。

主營產品包括遊戲顯卡GeForce GPU,用於深度學習計算的Tesla GPU,以及為智能汽車處理設計Tegra 處理器等。

得益於人工智慧發展,英偉達營收利潤不斷攀升,成為人工智慧產業最大受益公司之一。

編程環境良好,是英偉達GPU壟斷雲端AI硬體主流的重要原因。

由於廣泛應用於圖形圖像處理,GPU具備相對良好的編程環境和使用其編程的軟體工程師人群,因此成為目前最主流的深度學習硬體。

英偉達公司發布的CUDA運算平台,是專門針對開發者提供的一種並行計算平台。

開發者能通過CUDA平台使用軟體語言很方便得開發英偉達GPU實現運算加速。

由於CUDA平台之前被廣泛認可和普及,積累了良好的編程環境,目前應用在人工智慧領域、可進行通用計算的GPU市場基本被英偉達壟斷。

雲端數據中心及車載等AI相關領域,成為英偉達業務成長新引擎。

英偉達公司2017財年全年營收創下69.1億美元紀錄,較上2016財年的50.1億美元增長38%。

按照終端用戶應用領域拆分,英偉達主營業務拆分為遊戲、數據中心、專業可視化、汽車業務。

遊戲業務2017財年營收達到40.6億美元,占總營收58.8%,同比增長44.1%;數據中心和汽車的份額分別占總營收12%和7%,其中數據中心增長同比達到144.8%,汽車增長同比達到52.2%。

公司從2017財年Q1季度到2018財年Q1季度,主營構成變動很大,數據中心業務占比11%增長至21%,成長速度迅猛,成為英偉達業務增長新引擎。

未來趨勢:從開環到專精,未來GPU在雲端市場繼續強勢

GPU不斷適應AI的進化路徑,未來進化方向:從「開環」到「專精」。

目前雲端應用範圍最廣、效率最高的AI晶片仍是GPU。

但AI晶片並非只有GPU一種路徑,ASIC與FPGA相關廠商相繼推出針對人工智慧計算的晶片。

谷歌推出ASIC晶片TPU2代,性能達到45 TFLOPS(一個TFLOPS等於每秒萬億次的浮點運算),而功耗僅僅40W。

國內公司寒武紀推出的ASIC晶片DaDianNao性能達到5.585 TFLOPS,功耗僅為15.97W。

眾多專屬ASIC晶片的推出,可能威脅到未來GPU的霸主地位。

英偉達顯然意識到這一點,不斷推動技術創新,推出性能更加強勁、更適合AI運算的產品,不斷對其GPU進行深度優化,向更專精AI運算方向努力。

2017年5月,英偉達發布旗艦晶片Tesla V100,對比上一代Tesla P100,最大變化就是增加了與深度學習高度相關的Tensor單元,Tensor性能可以達到120 TFLOPS。

GPU不斷適應AI的進化路徑,從從「開環通用」到「AI專精」方向進化,性能不斷提高,加之生態環境的先發優勢,預計未來2~3年,GPU仍是人工智慧雲端市場最重要的組成部分。

2 雲端ASIC:以TPU為代表,性能取勝爭奪未來AI制高點

(1) 發展趨勢:ASIC—未來人工智慧專屬核心晶片

ASIC目前在AI方向上的發展尚處於早期。

ASIC全稱專用集成電路,是應針對特定場景、需求、算法而設計的專用晶片。

目前人工智慧類ASIC 的發展仍處於早期。

根本原因是目前人工智慧算法尚未定型,疊代較快,而ASIC設計一旦設計製造完成後功能就基本固定,相對GPU、FPGA而言不夠靈活,且開發周期長、初期成本高。

人工智慧ASIC晶片公司需要既具備人工智慧算法框架,又擅長晶片研發,進入門檻較高。

ASIC性能、能耗和大規模量產成本均顯著優於GPU和FPGA,是未來雲端人工智慧重要發展方向。

針對特定雲端應用,作為全定製設計的ASIC晶片,性能和能耗都要優於FPGA和GPU。

谷歌最近研發出人工智慧ASIC TPU,和傳統的GPU相比性能提升15倍,更是CPU浮點性能的30倍。

由於ASIC兼具性能和功耗雙重優點,加之大規模量產條件下ASIC單片成本大幅下降,我們判斷其定會成為人工智慧未來的核心晶片。

(2) 生態格局:谷歌TPU為目前自用最強ASIC,期待生態完善後外供

TPU:目前谷歌自用最強ASIC晶片,期待生態完善後外供。

隨著AlphaGo橫掃人類頂尖棋手,谷歌在AlphaGo中應用的ASIC晶片TPU受到業界熱捧,谷歌於2016年Google I/O大會上正式介紹第一代TPU產品,在今年5月的開發者I/O大會上,Google正式公布了第二代TPU,又稱為Cloud TPU,其最大的特色在於相比初代TPU,它既可以用於訓練神經網絡,又可以用於推理,這既為推理階段進行了優化,也為訓練階段進行了優化。

在性能方面,第二代TPU可以達到45 TFLOPs的浮點性能。

和傳統的GPU相比提升15倍,更是CPU浮點性能的30倍。

生態方面,目前TPU僅支持自身的開源TensorFlow機器學習框架和生態系統。

這和生態系統非常完善的GPU相比有一定的不足。

不過谷歌也意識到了這個不足,為了彌補生態上面的不足,谷歌提出了TensorFlow Research Cloud計劃,為願意分享自己工作成果的研究人員免費提供1000個Cloud TPU。

相信隨著TPU生態的不斷完善,性能更加強悍的TPU將成為雲端人工智慧的未來。

3 雲端FPGA:雲端的有效補充,低延時場景具備充分優勢

(1) 會變形的萬能晶片,未來雲端AI的最好補充

FPGA可編程,靈活性高。

FPGA(Field-ProgrammableGate Array),即現場可編程門陣列,它是在PAL、CPLD等可編程器件的基礎上進一步發展的產物。

FPGA內部包含大量重複的IOB(輸入輸出模塊)、CLB(可配置邏輯塊,內部是基本的邏輯門電路,與門、或門等)和布線信道等基本單元。

FPGA在出廠時是「萬能晶片」,用戶可根據自身需求,用硬體描述語言(HDL)對FPGA的硬體電路進行設計;每完成一次燒錄,FPGA內部的硬體電路就有了確定的連接方式,具有了一定的功能。

FPGA可隨意定製內部邏輯的陣列,並且可以在用戶現場進行即時編程,以修改內部的硬體邏輯,從而實現任意邏輯功能。

(2) 核心優勢:在雲端算法性能高、功耗和延遲低

FPGA無指令、無共享內存,並行計算效率高。

CPU、GPU都屬於馮·諾依曼結構,需要指令解碼執行、共享內存,是傳統意義上的「軟體編程」。

而FPGA每個邏輯單元的功能在重編程(燒寫)時就已經確定,不需要指令,屬於「硬體編程」;FPGA每個邏輯單元與周圍邏輯單元的連接在重編程時就已經確定,也不需要通過共享內存來通信。

FPGA利用硬體並行的優勢,打破順序執行的模式,因此在每個時鐘周期內完成更多的處理任務,執行效率大幅提高。

FPGA相對CPU、GPU能耗優勢明顯。

一方面,由於是直接燒錄成專用電路,FPGA沒有存取指令和指令解碼操作,因此功耗優勢明顯。

Intel的CPU指令解碼就占整個晶片能耗的50%;在GPU裡面,取指令和解碼也消耗了10%~20%的功耗。

另一方面,FPGA的主頻比CPU與GPU低很多,通常CPU與GPU都在1GHz到3GHz之間,而FPGA主頻一般在500MHz以下。

微軟研究院2010年分析了CPU、GPU以及FPGA對矩陣運算的底層庫相同運算的加速性能以及能耗,對比執行GaxPy算法(一種常用矩陣算法)每次疊代的時間和能耗,結論是FPGA、GPU相對於CPU的加速比優勢明顯,與此同時FPGA的能耗僅是CPU與GPU的8%左右。

對於計算/通信密集型任務,FPGA比CPU、GPU延遲低。

FPGA同時可擁有流水線並行和數據並行,而GPU幾乎只有數據並行(流水線深度受限)。

當任務是逐個而非成批到達的時候,流水線並行比數據並行可實現更低的延遲,FPGA比GPU天生有延遲方面的優勢。

對於通信密集型任務,FPGA相比CPU、GPU的低延遲優勢更明顯。

使用FPGA和ASIC等低延遲和高吞吐量的硬體,運行在網絡的最低層,保證所有數據以安全及時的方式傳輸,能夠提高網絡可靠性並節省負載。

靈活性和效率的折衷,適應數據中心不斷變化的算法。

FPGA在數據中心最大的特點就在高吞吐的同時能做到低延時。

FPGA內部的資源都是可以重配置的,因此它可以很容易進行數據並行和流水並行,且易於在數據並行和流水並行之間平衡。

而GPU幾乎只能做數據並行。

與ASIC相比,FPGA的可編程性體現出很大的優勢。

現在數據中心的各種算法每時每刻都在更新變化,沒有足夠穩定的時間讓ASIC完成長周期的開發。

比如在一種神經網絡模型出來之後開始把它做成ASIC,也許還未投片生產,這個神經網絡模型已經被另一種神經網絡模型所替代。

另一方面,FPGA可以在不同的業務需求之間做平衡。

比如說白天用於為搜索業務排序的機器;在晚上請求很少的情況下,可以將這些FPGA重新配置成離線數據分析的功能,提供對離線數據進行分析的服務。

目前騰訊雲和百度雲都大量部署FPGA在數據中心的伺服器用於加速。

可編程性會導致面積和功耗冗餘,長期看在雲端比終端應用更廣泛。

FPGA的工作模式,決定了需要預先布置大量門陣列以滿足用戶的設計需求,因此有「以面積換速度」的說法:使用大量的門電路陣列,消耗更多的FPGA內核資源,用來提升整個系統的運行速度。

因此,FPGA的可編程性和靈活性必然會導致一定程度上的面積和功耗冗餘,但很多場景中可編程性收益遠高於冗餘成本,這些場景往往在雲端更多。

因為終端只做「推理」,特定場景算法更為固定,成本要求也更高,因此預計FPGA在終端最終會被ASIC取代。

(3) 市場空間:緊隨GPU受益雲端數據中心市場爆發,2020年規模或達20億美元

FPGA數據中心業務將緊隨GPU爆發,預計未來5年潛在市場空間達20億美元。

據Gartner統計,2014年全球FPGA市場規模達到50億美元,2015-2020年的年均複合增長率為9%,到2020年將達到84億美元。

FPGA高性能、低能耗以及可硬體編程的特點使其適用範圍得以擴大。

據Synergy Research Group數據,2016年底超大規模提供商運營的大型數據中心的數量已突破300個,預計到2018年大型數據中心將超過400個。

數據中心的快速發展必然拉動FPGA市場增長,我們預計用於數據中心的FPGA市場規模在2020年將達到20億美元。

數據中心「瑜亮之爭」:既有GPU,還需FPGA?由於FPGA是硬體語言編程,需要耗費晶片設計工程師資源做上層軟體算法的底層硬體的「影射」,加之目前性能、成本上綜合來看還是GPU更好,所以GPU是目前數據中心主流。

但未來FPGA在數據中心業務中前景光明,原因有兩點:第一,雲巨頭企業本質上希望其算法優化從硬體底層起就可實現,而並非完全受控於英偉達GPU的編譯和運行性能,為未來底層硬體的自身完全定製化(做自己的ASIC)做準備,所以部分雲廠商願意面向未來,在FPGA開發上投入成本;第二,FPGA功耗特性較GPU好很多,數據中心業務運算量巨大,未來必須考慮功耗問題,如下表所示,各型號FPGA功耗比都優於GPU。

在算法逐步穩定以後,針對數據中心不同應用場景,FPGA的萬能變形優勢會逐步體現。

(4)生態格局:兩公司壟斷,巨頭併購凸顯雲端AI有效補充地位

Altera與Xilinx兩公司壟斷FPGA市場。

目前全球FPGA市場主要被Altera 和Xilinx瓜分,合計占有近90%的市場份額,合計專利達到6000多項,剩餘份額被Lattice和Microsemi兩家占據,合計共有超過3000項專利。

技術專利的限制和漫長的開發周期使得FPGA行業形成了很高的壁壘,這也進一步鞏固了Altera和Xilinx兩家公司的優勢地位和盈利水平。

Intel收購Altera,看好FPGA在未來數據中心的核心價值。

2014年6月,微軟對外公布其針對數據處理的研發項目Project Catapult,研究結果顯示,將FPGA應用於Intel伺服器,後者性能可以提升10倍,處理效率提升30%以上,能耗也顯著降低。

2015年6月,Intel以167億美元收購FPGA龍頭公司Altera。

Altera對於Intel的價值,核心在於數據中心業務。

長久以來,Intel一直在PC、伺服器、存儲市場以及數據中心領域占據絕對優勢地位。

2017年一季度Intel數據中心業務收入同比增長6%至42億美元,二季度收入同比增長9%至44億美元,增長勢頭強勁。

Altera FPGA技術結合Intel CPU製造技術,能夠將CPU的複雜數據處理能力與FPGA的數據並行處理能力結合,未來在數據中心應用領域顯現出強強聯合的優勢,構建未來雲端人工智慧的堅實基礎。

網際網路巨頭雲端積極部署包含FPGA的數據中心,未來可期。

由於FPGA在數據中心的獨特優勢,亞馬遜、微軟等企業在數據中心均紛紛部署FPGA。

國內,騰訊雲在年初部署了首個FPGA雲伺服器。

2017年7月,百度雲也宣布在其公有雲伺服器中部署基於賽靈思FPGA的應用加速服務。

國內外主流雲服務企業紛紛把目光聚焦在了FPGA上,這顯然不是巧合,這說明整個雲服務行業似乎已經對FPGA在高性能計算上的重要性上達成了一致,FPGA在雲端特別是底層的數據中心業務前景可期。

雲端AI晶片未來:各自進化、走向融合, 生態定義未來

(1)雲端AI晶片各自進化,走向融合

雲端不同的AI晶片在向彼此學習和進化。

一方面,以英偉達為代表的GPU從通用到精進,不斷優化其GPU架構,使其針對人工智慧算法進行優化,向更加專業化的人工智慧領域擴展。

另一方面,以谷歌TPU為代表的雲端ASIC,為了滿足靈活性和通用性,也設計了眾多指令集同時支持訓練和推理,未來有望實現從閉環到開環的拓展。

谷歌CEO在2017年5月的開發者大會上表示,谷歌將免費開放1000台Cloud TPU供開發者和研究人員使用。

相信隨著TensorFlow的框架完善、谷歌TPU自身的架構優化、靈活性加強與通用性的完善,我們預計未來TPU晶片也會從谷歌內部使用改為外供給其他雲端伺服器廠商。

雲端有望形成「CPU+GPU/TPU+FPGA」的多晶片融合態勢。

CPU繼續作為伺服器的控制核心,GPU和ASIC(TPU等)將成為人工智慧雲端的運算主力,FPGA在延時要求高的計算/通信密集型任務中作為有效補充,未來有望形成CPU+GPU/TPU+FPGA多晶片融合共存的發展態勢。

雲計算巨頭紛紛推出多晶片融合的雲端平台。

我們觀察到,2017年微軟在其最新上線的Azure雲平台中部署FPGA,配合原有的英特爾CPU 和英偉達Tesla K80 GPU,實現性能的最大化提升。

2017年3月騰訊雲宣布,已形成包含CPU+GPU+FPGA全矩陣AI基礎設施計算平台。

(2)生態完善度或決定AI晶片市場未來

上層生態完善度或將決定AI晶片市場未來。

完善的開源生態幫助AI核心晶片擁有更強的用戶粘性,幫助保持市場空間。

或將決定AI晶片市場未來。

AI晶片生態主要包括AI開源平台支持與開發環境支持兩種生態。

目前開源平台眾多,江湖未一統。

AI開源平台是一個深度學習的工具箱,用戶可以通過此開放平台,基於底層計算晶片運行其算法系統。

目前AI開發人員主要是利用開源平台進行算法優化,因此AI硬體只有具備支持主流開源平台的特性,才能形成穩定的客戶群體,牢牢占據市場空間。

各大科技公司為了占據生態優勢也陸續推出各自的開源平台系統,之前較流行的兩大開源平台是Tensorflow與Caffe,近來Caffe2和mxnet也逐步興起,江湖尚未一統。

對AI晶片廠商而言,目前需要選擇開源平台進行支持。

開源平台生態支持方面,GPU相對完善,FPGA與ASIC加速跟進。

以英偉達GPU為例,其支持包括Tensorflow,Caffe,Caffe2,CNTK,Torch等幾乎所有的開源平台,完善的生態優勢使得GPU目前具備極強競爭力。

FPGA與ASIC相關廠商也紛紛注意到生態的重要性,陸續推出支持主流開源平台的產品。

2016年,谷歌發布的TPU2代支持其自家的Tensorflow框架。

2017年3月,Xilinx推出基於FPGA的reVISION堆棧解決方案,支持Caffe框架,並計劃未來拓展到更多的框架比如TensorFlow等框架上。

開源平台是支撐相關開發的基礎,目前尚處於群雄逐鹿階段。

未來平台生態之爭將是各家AI晶片能否占據市場的一大關鍵點。

AI晶片廠商都會儘可能支持儘可能多的主流平台,但相應的,也會帶來更多的開發任務量,需要折衷考慮。

在AI硬體開發環境方面,同樣是GPU占據優勢,FPGA廠商加速完善。

AI硬體開發環境是指專門針對AI硬體推出的適應於硬體計算的開發環境,用戶能利用如C,C++等軟體語言更方便的基於AI晶片進行頂層應用開發,並且能起到硬體加速的效果。

英偉達推出的CUDA是目前最流行的AI硬體開發環境,幾乎所有英偉達主流GPU都支持CUDA開發。

FPGA方面,為了減少FPGA設計的複雜度,Altera推出了OpenCL SDK開發環境,Xilinx推出了SDAccel開發環境,這兩種FPGA開發環境都大大減輕開發者利用FPGA開發的難度。

但目前基於FPGA的開發環境開發靈活度與推廣度依然不如CUDA。

此外,由於ASIC直接採用底層硬體語言開發,目前不能用C語言等軟體語言,因此不存在開發環境問題。

未來有望在統一的軟體框架下,實現各類晶片在雲端的融合共存。

我們判斷各種晶片在雲端將競爭並長期共存,雲端上層會提供統一的軟體平台對各類晶片進行支持。

換句話說,上層的開發者未來不需要關心底層的硬體是哪種,可以使用統一的、支持各類底層硬體的開源平台進行開發。

雲端具體採用哪種晶片架構,將根據云端實際應用需求確定。

通過CPU+GPU/TPU+FPGA(可選)的靈活配置,更好地滿足和實現各種應用場景下不斷升級更新的AI算法的需求,使雲端人工智慧保持長期的靈活性。

未來主流框架可能不止一種,類似TensorFlow、Caffe2等都有可能成為主流的Frame框架。

註:未完待續,AI「下沉」終端,晶片負責推斷,採用硬體實現終端人工智慧是必然趨勢,下期雜誌將刊載本報告下半部分內容,將重點探討AI晶片在終端三大子行業(智能安防、輔助駕駛、手機/音箱/無人機/機器人等其他消費終端)如何落地。

敬請關注!


請為這篇文章評分?


相關文章 

人工智慧浪潮抵達終端

人工智慧被捧上風口,從新興科技產業到傳統製造業、從前端消費者交互到後端供應鏈管理,幾乎每一家企業每一個環節,都在布局人工智慧、尋找產業升級的機會。李開復曾經表示,這波人工智慧浪潮之所以能起來,非...