文章標籤：

蛋糕

億美元

場景

大門

晶片

AI晶片的3大門派四大場景146億美元大蛋糕

2021-01-26

文章推薦指數： 80 %

投票人數：10人

AI晶片也被稱為AI加速器或計算卡，即專門用於處理人工智慧應用中的大量計算任務的模塊（其他非計算任務仍由CPU負責）。

當前，AI晶片主要分為 GPU 、FPGA 、ASIC 。

人工智慧大勢之下，晶片市場的蛋糕越做越大。

有分析認為，到2020年AI晶片市場規模將達到146.16億美元，約占全球人工智慧市場規模12.18%。

三大門派

深度學習在神經網絡模型的應用中主要分為上游訓練端和下游推理端，網際網路大數據的興起對超算晶片提出了新的需求，人工智慧（AI）亦如是。

AI的「腦力」核心在於晶片和算法。

其中，AI算法的目前的主流方案是深度學習/強化學習，並已經被AlphaGo Master 和Zero成功驗證可行性。

深度學習即通過構建一種深層非線性網絡結構，來實現複雜函數逼近及自動特徵提取，具有強大的從少數樣本集中挖掘數據統計規律的能力。

GPU稱雄 ASIC割據

四大晶片的「通用性和功耗的平衡」

目前深度學習領域常用的四大晶片類型

2011年，吳恩達率先將GPU用於谷歌大腦，發現12顆GPU可提供約2000顆CPU的深度學習性能，之後紐約大學、多倫多大學及瑞士人工智慧實驗室紛紛在GPU上加速其深度神經網絡。

GPU和CPU結構上的區別

GPU比CPU擁有更多的運算器(Arithmetic Logical Unit)，只需要進行高速運算而不需要邏輯判斷，其海量數據並行運算的能力與深度學習需求不謀而合。

因此，在深度學習上游訓練端（主要用在雲計算數據中心裡），GPU 是當仁不讓的第一選擇。

目前GPU的市場格局以英偉達為主（超過70%），AMD 為輔，預計 3-5 年內 GPU 仍然是深度學習市場的第一選擇。

下游推理端更接近終端應用，更關注響應時間而不是吞吐率，需求更加細分，除了主流的GPU晶片之外，還包括CPU、FPGA（ Xilinx、英特爾Altera、Lattice 及 Microsemi等）、ASIC （英特爾Nervana Engine、Wave Computing 的數據流處理單元、英偉達的DLA、谷歌 TPU、寒武紀 NPU等）也會在這個領域發揮各自的優勢特點。

FPGA：現場可編程門陣列

目前來看，下游推理端雖可容納 CPU、FPGA、ASIC 等晶片，競爭態勢中英偉達依然占大頭，但隨著AI的發展，FPGA的低延遲、低功耗、可編程性（適用於傳感器數據預處理工作以及小型開發試錯升級疊代階段）和ASIC的特定優化和效能優勢（適用於在確定性執行模型）將凸顯出來。

賽靈思提供的 FPGA 與 CPU 性能對比優勢

Grand View Research 分析，2015年全球FPGA總市場規模達 63.6 億美元，預計到2024年FPGA市場規模將達到142億美元。

其中，Xilinx 的市場份額為 49%，主要應用到工業和通訊領域，但近年亦致力於在雲計算數據中心的伺服器以及無人駕駛的應用；Altera（已被英特爾收購）的市場份額約為 40%，定位跟 Xilinx 類似；萊迪斯半導體(Lattice Semiconductor)的市場份額約為 6%，主要市場為消費電子產品和移動傳輸，以降低耗電量、縮小體積及縮減成本為主；Microsemi (Actel)的市場份額約為 4%，瞄準通信、國防與安全、航天與工業等市場。

目前 Altera 的 FPGA 產品被用於微軟 Azure 雲服務中包括必應搜索、機器翻譯等應用中。

各家晶片商打法上，除了力推自家晶片，還會在整個AI生態上進行布局：

四大場景

數據中心

當前英偉達GPU在數據中心的使用情況

在數據中心搶灘戰中，英偉達可謂拔得頭籌：2016年公司數據中心業務帶來8.3 億美元收入，同比增長145%；今年的增長的動力落在了Volta架構V100（訓練吞吐量提高至上代Pascal的12倍）的身上，前9個月收入已達 13.26 億美元，同比增長148%。

英偉達基本壟斷數據中心GPU

從市場占有率來看，目前全球雲計算巨頭基本使用英偉達GPU進行深度學習與算法加速，且相對於AMD，英偉達先發的構架升級以及廣泛成熟的開發生態環境優勢明顯。

不過，AMD或將接著合作百度、中科曙光的機會依靠GPU的捆綁銷售，加速切入國內數據中心和AI發展快車道。

英特爾計劃在數據中心裡提供 FPGA 加速

值得注意的是，自2015年6月167億美元收購FPGA晶片廠Altera後，英特爾也宣布計劃在數據中心裡提供 FPGA 加速；與此同時，TensorFlow團隊公布了 TensorFlow Research Cloud 雲開發平台，向研究人員提供一個具有 1000 個雲TPU 的伺服器集群，用來服務各種計算密集的研究項目，第二代TPU也可用於深度學習上游訓練環節，並將部署在谷歌雲計算引擎平台上，真正帶入雲端。

TPU Pod，由64台二代TPU 組成，算力達 11.5 petaflops

自動駕駛

以 2020 年為界，全球將開啟無人駕駛「黃金十年」。

L3 半自動駕駛水平以上的行業發展，需要整個汽車行業供應商關係的重組和整合。

包括：

「車企+ 供應商+ 晶片巨頭+ 打車軟體+ 物流公司」新格局

形成「車企+供應商+晶片巨頭+打車軟體+物流公司」的格局；
共享經濟下的租車、打車以及商業貨運物流領域會最快落地得到應用；
L4 相對比 L1、L2，單車系統零部件支出會增長 470%，從 545 美元升至 3100 美元/車。

L1 到 L4 單車零部件成本變化

英偉達指出，從 ADAS 提升到 L3 半自動駕駛所需的計算難度會提升 5 倍，而關鍵的L3向L4提升需要 50 倍，從 L4 提升到 L5 則需要 2 倍。

因此，汽車電子化和智能化的方向將持續提高科技類公司在汽車產業鏈內的重要程度（三星收購哈曼，高通收購 NXP，英特爾收購Mobileye），營造了「車企+ 供應商+ 晶片巨頭+ 打車軟體+ 物流公司」的新格局。

目前，無人駕駛上游系統解決方案逐漸形成英偉達與英特爾-Mobileye 聯盟兩大競爭者。

英偉達在硬體層面算力和研發節奏上成為當仁不讓的先行軍：此前，公司的汽車業務主要集中在汽車顯示屏和影音系統（Drive PX），今年1月的 CES 大會上發布無人駕駛的整體布局（從車載超級電腦平台以及人工智慧駕駛系統， Xavier），英偉達在德國慕尼黑的 GTC Europe 大會上，發布了面向完全自動駕駛 L5 級別的新一代 Drive PX 人工智慧車載計算平台 Pegasus。

英偉達智能汽車合作方有大眾（優化城市交通）、奧迪（聯合Mobileye、Delphi 等設計的全球首款搭載 L3 級自動駕駛的量產車，新一代A8）等。

英特爾以每股 63.54 美元價格收購的 Mobileye，Mobileye的機器視覺算法將與英特爾的晶片、數據中心、AI、傳感器融合，以及地圖服務等方面產生強大的協同合作效應，聯手打造「軟硬兼施」的全新無人駕駛供應商。

目前，英特爾-Mobileye聯盟擁有全行業最廣泛的車企合作關係，且商業路徑十分明晰：從 ADAS 出發，逐步完善功能模塊，提高自動化程度，進化到EyeQ5（預計2020年推出，算力15萬億次）將會成為一個開源性、定製化、可升級的標準解決方案，打造成為無人駕駛界的Android。

除了上述兩大主力汽車晶片競爭方，百度雖然與英偉達合作密切（Apollo開放平台從數據中心到自動駕駛都將使用英偉達技術，包括Tesla GPU和DRIVE PX 2，以及CUDA和TensorRT在內的英偉達軟體），卻也採用Xilinx的FPGA晶片加速機器學習，用於語音識別和汽車自動駕駛。

虛擬貨幣

2017 年以來，數字虛擬貨幣連創新高，以太坊(Ethereum)技術下的以太幣(ETH)漲逾30倍，比特幣(BTC)也漲逾 7 倍突破 8000 美元。

全球數字貨幣市值也從 180 億美元增長至逾 2300億美元。

受益於數字貨幣的持續高度關注，通過顯卡「挖礦」而獲取貨幣的熱潮，也發掘了對 AMD 和英偉達顯卡的需求。

根據 cryptocompare 網站數據，AMD RX 470 GPU的礦機有明顯優於英偉達 GTX 970 GPU 的經濟回報，為了有效消弭挖礦和遊戲需求衝突，並避免二手卡問題，英偉達針對虛擬數字貨幣挖礦熱潮推出專門挖礦顯卡（基於 GTX 1060 6GB 產品，完全取消顯示輸出接口，僅提供 90 天的質保）；AMD 則發布了專門的挖礦驅動 Radeon Software Crimson ReLive Edition Beta for BlockchainCompute，為區塊鏈計算工作負荷優化性能。

英偉達 CEO Jensen 在 Q3 季報會議上屢次被問及數字貨幣挖礦對公司業務的影響，他5次強調：挖礦市場對英偉達長期來說將會是「微小但不是零的」。

數字貨幣挖礦對 GPU 巨頭的影響整體空間有限，目前挖礦對顯卡需求的驅動雖會持續存在但將進一步趨平。

這主要是因為：

1、遵循比特幣挖礦路徑，挖礦需求會向專門晶片礦機轉移；

2、以太幣正在進行「工作量證明」向「權益證明」的升級，算力需求將會下降；

3、挖礦市場的狂熱需求也會影響正常遊戲顯卡市場的需求並帶來二手卡問題，也不是英偉達和 AMD 所想見。

終端AI的抬頭

AI 晶片的計算場景可分為雲端AI 和終端 AI。

NVIDIA首席科學家William Dally將深度學習的計算場景分為三類，分別是數據中心的訓練、數據中心的推斷和嵌入式設備的推斷。

前兩者可以總結為雲端的應用，後者可以概括為終端的應用。

終端設備的模型推斷方面，由於低功耗、便攜等要求，FPGA和ASIC的機會優於GPU 。

而提到終端智能，不得不談蘋果的A11神經引擎和華為的麒麟970 NPU。

2017年9月，蘋果發布了iPhone X，搭載64位架構A11神經處理引擎。

為實現基於深度學習的高準確性面部識別解鎖方式（Face ID），並解決雲接口（Cloud-Based API）帶來的延時和隱私問題，以及龐大的訓練數據和計算量與終端硬體限制的矛盾，iPhone X採用了「師生」培訓、中間層、聯合圖、分割GPU工作項、匹配框架的神經引擎等方案解決。

華為海思麒麟 970 架構搭載寒武紀IP的NPU

華為麒麟 970。

麒麟 970 採用 10nm 製程，搭載 Cortex-A73（CPU）、Mali-G72（GPU）和麒麟 NPU（神經網絡處理單元）。

其中，麒麟 NPU 採用了寒武紀的IP（1A晶片），目的是解決端側AI（On-Device AI）。

寒武紀自下而上的策略，從提供低功耗嵌入式終端的本地智能處理晶片解決方案入手，計劃逐步向伺服器雲端的訓練處理晶片去布局，有望構建強大的用戶生態圈。