一文看懂人工智慧晶片的產業生態及競爭格局

文章推薦指數: 80 %
投票人數:10人

近日,國內人工智慧晶片公司寒武紀科技(Cambricon)獲得了一億美元A輪融資,是目前國內人工智慧晶片領域初創公司所獲得的最高融資記錄,如果要說這樁融資對人工智慧領域的最直接意義,或許是讓人工智慧晶片逐漸走入了更多人的視野。

深度學習不僅在傳統的語音識別、圖像識別、搜索/推薦引擎、計算廣告等領域證明了其劃時代的價值,也引爆了整個人工智慧生態向更大的領域延伸。

由於深度學習的訓練(training)和推斷(inference)均需要大量的計算,人工智慧界正在面臨前所未有的算力挑戰,而其始作俑者,是摩爾定律的失效。

由於結構所限,CPU性能近年來未能呈現如摩爾定律預測的定期翻倍,於是具有數量眾多計算單元和超長流水線、具備強大並行計算能力與浮點計算能力的GPU,成為了深度學習模型訓練的標配。

GPU可以大幅加速深度學習模型的訓練速度,相比CPU能提供更快的處理速度、更少的伺服器投入和更低的功耗,並成為深度學習訓練層面的事實工具標準。

但是,隨著人工智慧產業鏈的火速延伸,GPU並不能滿足所有場景(如手機)上的深度學習計算任務, GPU並不是深度學習算力痛點的唯一解。

算力的剛需,吸引了眾多巨頭和初創公司紛紛進入人工智慧晶片領域,並形成了一個自下而上的生態體系,本文希望通過不太長的篇幅,系統呈現這個繽紛而有趣的人工智慧晶片生態。

人工智慧晶片分類

一項深度學習工程的搭建,可分為訓練(training)推斷(inference)兩個環節:訓練環境通常需要通過大量的數據輸入,或採取增強學習等非監督學習方法,訓練出一個複雜的深度神經網絡模型。

訓練過程由於涉及海量的訓練數據(大數據)和複雜的深度神經網絡結構,需要的計算規模非常龐大,通常需要GPU集群訓練幾天甚至數周的時間,在訓練環節GPU目前暫時扮演著難以輕易替代的角色。

推斷(inference)環節指利用訓練好的模型,使用新的數據去「推斷」出各種結論,如視頻監控設備通過後台的深度神經網絡模型,判斷一張抓拍到的人臉是否屬於黑名單。

雖然推斷環節的計算量相比訓練環節少,但仍然涉及大量的矩陣運算。

在推斷環節,除了使用CPU或GPU進行運算外,FPGA以及ASIC均能發揮重大作用。

FPGA(可編程門陣列,Field Programmable Gate Array)是一種集成大量基本門電路及存儲器的晶片,可通過燒入FPGA配置文件來來定義這些門電路及存儲器間的連線,從而實現特定的功能。

而且燒入的內容是可配置的,通過配置特定的文件可將FPGA轉變為不同的處理器,就如一塊可重複刷寫的白板一樣

因此FPGA可靈活支持各類深度學習的計算任務,性能上根據百度的一項研究顯示,對於大量的矩陣運算GPU遠好於FPGA,但是當處理小計算量大批次的實際計算時FPGA性能優於GPU,另外FPGA有低延遲的特點,非常適合在推斷環節支撐海量的用戶實時計算請求(如語音雲識別)。

ASIC(專用集成電路,Application Specific Integrated Circuit)則是不可配置的高度定製專用晶片。

特點是需要大量的研發投入,如果不能保證出貨量其單顆成本難以下降,而且晶片的功能一旦流片後則無更改餘地,若市場深度學習方向一旦改變,ASIC前期投入將無法回收,意味著ASIC具有較大的市場風險。

但ASIC作為專用晶片性能高於FPGA,如能實現高出貨量,其單顆成本可做到遠低於FPGA。

在深度學習的訓練和推斷環節,常用到的晶片及特徵如下圖所示:

從市場角度而言,目前人工智慧晶片的需求可歸納為三個類別:首先是面向於各大人工智慧企業及實驗室研發階段的訓練環節市場;其次是數據中心推斷(inference on cloud),無論是亞馬遜Alexa還是出門問問等主流人工智慧應用,均需要通過雲端提供服務,即推斷環節放在雲端而非用戶設備上;第三種是面向智慧型手機、智能安防攝像頭、機器人/無人機、自動駕駛、VR等設備的設備端推斷(inference on device)市場,設備端推斷市場需要高度定製化、低功耗的人工智慧晶片產品。

如傳聞華為即將在Mate 10的麒麟970中搭載寒武紀IP,旨在為手機端實現較強的深度學習本地端計算能力,從而支撐以往需要雲端計算的人工智慧應用。

我們圍繞上述的分類標準,從市場及晶片特性兩個角度出發,可勾畫出一個人工智慧晶片的生態體系,整個生態體系分為訓練層、雲端推斷層和設備端推斷層:

Training層晶片生態

毫無疑問在深度學習的Training階段,GPU成為了目前一項事實的工具標準。

由於AMD今年來在通用計算以及生態圈構建方面都長期缺位,導致了在深度學習GPU加速市場NVIDIA一家獨大的局面。

根據NVIDIA今年Q2年報顯示,NVIDIA的Q2收入為達到22.3億美元,毛利率更是達到了驚人的58.4%,其中數據中心(主要為面向深度學習的Tesla加速伺服器)Q2收入4.16億美元,同比上升達175.5%。

面對深度學習Training這塊目前被NVIDIA賺得盆滿缽滿的市場,眾多巨頭紛紛對此發起了挑戰

Google今年5月份發布了TPU 2.0,TPU是Google研發的一款針對深度學習加速的ASIC晶片,第一代TPU僅能用於推斷(即不可用於訓練模型),並在AlphaGo人機大戰中提供了巨大的算力支撐。

而目前Google發布的TPU 2.0除了推斷以外,還能高效支持訓練環節的深度網絡加速。

根據Google披露,Google在自身的深度學習翻譯模型的實踐中,如果在32塊頂級GPU上並行訓練,需要一整天的訓練時間,而在TPU2.0上,八分之一個TPU Pod(TPU集群,每64個TPU組成一個Pod)就能在6個小時內完成同樣的訓練任務。

目前Google並沒急於推進TPU晶片的商業化。

Google在TPU晶片的整體規劃是,基於自家開源、目前在深度學習框架領域排名第一的TensorFlow,結合Google雲服務推出TensorFlow Cloud,通過TensorFlow加TPU雲加速的模式為AI開發者提供服務,Google或許並不會考慮直接出售TPU晶片。

如果一旦Google將來能為AI開發者提供相比購買GPU更低成本的TPU雲加速服務,藉助TensorFlow生態毫無疑問會對NVIDIA構成重大威脅。

當然TPU作為一種ASIC晶片方案,意味著其巨大的研發投入和市場風險,而其背後的潛在市場也是巨大的:一個橫跨訓練和雲端推斷的龐大雲服務,但目前恐怕只有Google才有如此巨大的決心和資源稟賦,使用ASIC晶片去構築這一布局——如果將來TPU雲服務無法獲得巨大的市場份額從而降低單顆TPU的成本,Google將難以在這一市場盈利。

但市場的培育除了晶片本身顯然是不足夠的,還包括讓眾多熟悉GPU加速的研究/開發者轉到TPU雲計算平台的轉換成本,這意味著Google要做大量的生態系統培育工作。

除了Google外,昔日的GPU王者AMD目前也奮起直追,發布了三款基於Radeon Instinct的深度學習加速器方案,希望在GPU深度學習加速市場分回一點份額,當然AMD是否能針對NVIDIA的同類產品獲得相對優勢尚為未知之數。

對於現任老大NVIDIA而言,目前當務之急無疑是建立護城河保衛其市場份額,總結起來是三方面的核心舉措

一方面在產品研發上,NVIDIA耗費了高達30億美元的研發投入,推出了基於Volta、首款速度超越100TFlops的處理器Tesla,主打工業級超大規模深度網絡加速;另外一方面是加強人工智慧軟體堆棧體系的生態培育,即提供易用、完善的GPU深度學習平台,不斷完善CUDA、 cuDNN等套件以及深度學習框架、深度學習類庫來保持NVIDIA體系GPU加速方案的粘性。

第三是推出NVIDIA GPU Cloud雲計算平台,除了提供GPU雲加速服務外,NVIDIA以NVDocker方式提供全面集成和優化的深度學習框架容器庫,以其便利性進一步吸引中小AI開發者使用其平台。

核心驅動能力:對於深度學習訓練這個人工智慧生態最為關鍵的一環,我們可以看到競爭的核心已經不是單純的晶片本身,而是基於晶片加速背後的整個生態圈,提供足夠友好、易用的工具環境讓開發者迅速獲取到深度學習加速算力,從而降低深度學習模型研發+訓練加速的整體TCO和研發周期。

一言蔽之,這個領域是巨頭玩家的戰場,普通的初創公司進入這個領域幾乎沒有任何的機會,接下來的核心看點,是Google究竟是否能憑藉TensorFlow+Google Cloud+TPU 2.0生態取得對NVIDIA的相對優勢,以市場份額的量變引起質變。

畢竟相比主打通用計算的NVIDIA GPU,TPU的ASIC方案當出貨量突破一定閾值後,其單顆價格和功耗比均能構成無法忽視的競爭優勢。

當然,這取決於兩個前提條件:一是深度學習主流框架在今後幾年不發生重大變化,比如深度學習變得不再高度依賴矩陣運算,否則一顆寫死的ASIC將失去幾乎一切價值。

二是Google能構築出足夠好用的生態,讓眾多AI研究/開發者從CUDA+GPU轉向Google,打破業界對NVIDIA的路徑依賴,而這點才是真正艱難的道路。

Inference On Cloud層晶片生態

當一項深度學習應用,如基於深度神經網絡的機器翻譯服務,經過數周甚至長達數月的GPU集群並行訓練後獲得了足夠性能,接下來將投入面向終端用戶的消費級服務應用中。

由於一般而言訓練出來的深度神經網絡模型往往非常複雜,其Inference(推斷)仍然是計算密集型和存儲密集型的,這使得它難以被部署到資源有限的終端用戶設備(如智慧型手機)上。

正如Google不期望用戶會安裝一個大小超過300M的機器翻譯APP應用到手機上,並且每次翻譯推斷(應用訓練好的神經網絡模型計算出翻譯的結果)的手機本地計算時間長達數分鐘甚至耗盡手機電量仍然未完成計算。

這時候,雲端推斷(Inference On Cloud)在人工智慧應用部署架構上變得非常必要。

雖然單次推斷的計算量遠遠無法和訓練相比,但如果假設有1000萬人同時使用這項機器翻譯服務,其推斷的計算量總和足以對雲伺服器帶來巨大壓力,而隨著人工智慧應用的普及,這點無疑會變成常態以及業界的另一個痛點。

由於海量的推斷請求仍然是計算密集型任務,CPU在推斷環節再次成為瓶頸。

但在雲端推斷環節,GPU不再是最優的選擇,取而代之的是,目前3A(阿里雲、Amazon、微軟Azure)都紛紛探索雲伺服器+FPGA晶片模式替代傳統CPU以支撐推斷環節在雲端的技術密集型任務。

亞馬遜 AWS 在去年推出了基於 FPGA 的雲伺服器 EC2 F1;微軟早在2015年就通過Catapult 項目在數據中心實驗CPU+FPGA方案;而百度則選擇與FPGA巨頭Xilinx(賽思靈)合作,在百度雲伺服器中部署KintexFPGA,用於深度學習推斷,而阿里雲、騰訊雲均有類似圍繞FPGA的布局,具體如下表所示。

當然值得一提的是,FPGA晶片廠商也出現了一家中國企業的身影——清華系背景、定位於深度學習FPGA方案的深鑒科技,目前深鑒已經獲得了Xilinx的戰略性投資。

雲計算巨頭紛紛布局雲計算+FPGA晶片,首先因為FPGA作為一種可編程晶片,非常適合部署於提供虛擬化服務的雲計算平台之中。

FPGA的靈活性,可賦予雲服務商根據市場需求調整FPGA加速服務供給的能力。

比如一批深度學習加速的FPGA實例,可根據市場需求導向,通過改變晶片內容變更為如加解密實例等其他應用,以確保數據中心中FPGA的巨大投資不會因為市場風向變化而陷入風險之中。

另外,由於FPGA的體系結構特點,非常適合用於低延遲的流式計算密集型任務處理,意味著FPGA晶片做面向與海量用戶高並發的雲端推斷,相比GPU具備更低計算延遲的優勢,能夠提供更佳的消費者體驗。

在雲端推斷的晶片生態中,不得不提的最重要力量是PC時代的王者英特爾。

面對摩爾定律失效的CPU產品線,英特爾痛定思痛,將PC時代積累的現金流,通過多樁大手筆的併購迅速補充人工智慧時代的核心資源能力。

首先以 167 億美元的代價收購 FPGA界排名第二的Altera,整合Altera多年FPGA技術以及英特爾自身的生產線,推出CPU + FPGA 異構計算產品主攻深度學習的雲端推斷市場

另外,去年通過收購擁有為深度學習優化的硬體和軟體堆棧的Nervana,補全了深度學習領域的軟體服務能力。

當然,不得不提的是英特爾還收購了領先的ADAS服務商Mobileye以及計算機視覺處理晶片廠商Movidius,將人工智慧晶片的觸角延伸到了設備端市場,這點將在本文餘下部分講述。

相比Training市場中NVIDIA一家獨大,雲端推斷晶片領域目前可謂風起雲湧,一方面英特爾希望通過深耕CPU+FPGA解決方案,成為雲端推斷領域的NVIDIA,打一次漂亮的翻身仗。

另外由於雲端推斷市場當前的需求並未進入真正的高速爆發期,多數人工智慧應用當前仍處於試驗性階段,尚未在消費級市場形成巨大需求,各雲計算服務商似乎有意憑藉自身雲服務優勢,在這個爆發點來臨之前布局自己的雲端FPGA應用生態,做到肥水不流外人(英特爾)田,另外一個不可忽視的因素,是Google的TPU生態對雲端推斷的市場份額同樣有巨大的野心,也許這將會是一場徹頭徹尾的大混戰。

Inference On Device層晶片生態

隨著人工智慧應用生態的爆發,將會出現越來越多不能單純依賴雲端推斷的設備。

例如,自動駕駛汽車的推斷,不能交由雲端完成,否則如果出現網絡延時則是災難性後果;或者大型城市動輒百萬級數量的高清攝像頭,其人臉識別推斷如果全交由雲端完成,高清錄像的網絡傳輸帶寬將讓整個城市的行動網路不堪重負。

未來在相當一部分人工智慧應用場景中,要求終端設備本身需要具備足夠的推斷計算能力,而顯然當前ARM等架構晶片的計算能力,並不能滿足這些終端設備的本地深度神經網絡推斷,業界需要全新的低功耗異構晶片,賦予設備足夠的算力去應對未來越發增多的人工智慧應用場景。

有哪些設備需要具備Inference On Device能力?主流場景包括智慧型手機、ADAS、CV設備、VR設備、語音交互設備以及機器人

智慧型手機——智慧型手機中嵌入深度神經網絡加速晶片,或許將成為業界的一個新趨勢,當然這個趨勢要等到有足夠基於深度學習的殺手級APP出現才能得以確認。

傳聞中華為即將在Mate 10的麒麟970中搭載寒武紀IP,為Mate 10帶來較強的深度學習本地端推斷能力,讓各類基於深度神經網絡的攝影/圖像處理應用能夠為用戶提供更加的體驗。

另外,高通同樣有意在日後的晶片中加入驍龍神經處理引擎,用於本地端推斷,同時ARM也推出了針對深度學習優化的DynamIQ技術。

對於高通等SoC廠商,在其成熟的晶片方案中加入深度學習加速器IP並不是什麼難事,智慧型手機未來人工智慧晶片的生態基本可以斷定仍會掌握在傳統SoC商手中。

ADAS(高級輔助駕駛系統)——ADAS作為最吸引大眾眼球的人工智慧應用之一,需要處理海量由雷射雷達、毫米波雷達、攝像頭等傳感器採集的海量實時數據。

作為ADAS的中樞大腦,ADAS晶片市場的主要玩家包括今年被英特爾收購的Mobileye、去年被高通以470億美元驚人價格收購的NXP,以及汽車電子的領軍企業英飛凌。

隨著NVIDIA推出自家基於 GPU的ADAS解決方案Drive PX2,NVIDIA也加入到戰團之中。

CV(計算機視覺,Computer Vision)設備——計算機視覺領域全球領先的晶片提供商是Movidius,目前已被英特爾收購,大疆無人機、海康威視和大華股份的智能監控攝像頭均使用了Movidius的Myriad系列晶片。

需要深度使用計算機視覺技術的設備,如上述提及的智能攝像頭、無人機,以及行車記錄儀、人臉識別迎賓機器人、智能手寫板等設備,往往都具有本地端推斷的剛需,如剛才提及的這些設備如果僅能在聯網下工作,無疑將帶來糟糕的體驗。



而計算機視覺技術目前看來將會成為人工智慧應用的沃土之一,計算機視覺晶片將擁有廣闊的市場前景。

目前國內做計算機視覺技術的公司以初創公司為主,如商湯科技、阿里系曠視、騰訊優圖,以及雲從、依圖等公司

在這些公司中,未來有可能隨著其自身計算機視覺技術的積累漸深,部分公司將會自然而然轉入CV晶片的研發中,正如Movidius也正是從計算機視覺技術到晶片商一路走來的路徑。

VR設備、語音交互設備以及機器人——由於篇幅關係,這幾個領域放在一起介紹。

VR設備晶片的代表為微軟為自身VR設備Hololens而研發的HPU晶片,這顆由台積電代工的晶片能同時處理來自5個攝像頭、一個深度傳感器以及運動傳感器的數據,並具備計算機視覺的矩陣運算和CNN運算的加速功能。

語音交互設備晶片方面,國內有啟英泰倫以及雲知聲兩家公司,其提供的晶片方案均內置了為語音識別而優化的深度神經網絡加速方案,實現設備的語音離線識別。

機器人方面,無論是家居機器人還是商用服務機器人均需要專用軟體+晶片的人工智慧解決方案,這方面典型公司有由前百度深度學習實驗室負責人余凱創辦的地平線機器人,當然地平線機器人除此之外,還提供ADAS、智能家居等其他嵌入式人工智慧解決方案。

在Inference On Device領域,我們看到的是一個繽紛的生態。

因為無論是ADAS還是各類CV、VR等設備領域,人工智慧應用仍遠未成熟,各人工智慧技術服務商在深耕各自領域的同時,逐漸由人工智慧軟體演進到軟體+晶片解決方案是自然而然的路徑,因此形成了豐富的晶片產品方案。

但我們同時觀察到的是,NVIDIA、英特爾等巨頭逐漸也將觸手延伸到了Inference On Device領域,意圖形成端到端的綜合人工智慧解決方案體系,實現各層次資源的聯動。

雷鋒網按:本文為專欄投稿文章,作者胡嘉琪。


請為這篇文章評分?


相關文章 

「角力」人工智慧,老將英特爾的「新江湖」

無AI不熱點,當晶片公司都在談論人工智慧的發展戰略時,作為晶片老將的英特爾也在試圖做點什麼。過去幾年,熟悉的合作夥伴英偉達成為了人工智慧領域發展最為迅猛的晶片公司,網際網路巨擘谷歌儼然成為開發者...