汗顏!中國AI晶片公司僅兩家上榜!

文章推薦指數: 80 %
投票人數:10人

精彩導讀:今年3月,Facebook與英偉達強強聯合,意欲開啟AI晶片新時代!AI晶片市場現狀到底如何?前行之路平坦還是坎坷?欲知後事,且看下文...

晶片大佬頻頻伸手AI

今年 3 月,Facebook 宣布,其下代 GPU 伺服器 Big Basin 將使用英偉達的 GPU 技術,為此,英偉達為伺服器提供了 8 台 Tesla P100 加速器,以及高速 NVLink 技術(該技術可消除任何與連接相關的瓶頸,從而實現 GPU 之間的超速通信)。

據一項數據表明,搭載英偉達 Tesla P100 和 NVLink 技術的 Big Basin 訓練的機器學習模型,與上代伺服器 Big Sur 相比,規模大 30%,寬頻內存上升 33% 左右。

事實證明,在某些情況下,Big Basin 可以比 Big Sur 快上一倍,它以更快的速度處理 Facebook 海量的文字、照片和視頻需求。

這已經不是英美達與Facebook第一次合作,早在 2015 年年底,Facebook 就在其開源的 AI 計算平台 Big Sur 中安裝了英偉達的 Tesla M40 GPU。

Big Sur 是第一款針對機器學習、人工智慧研究開發的開放原始碼計算系統,主要用於訓練神經網絡,搭載 Tesla M40 之後,該平台的速度較前代產品提升 2 倍。

據了解,Facebook 是第一家採用英偉達 Tesla M40 GPU 的廠商。

此外,巨頭 IntelAMD也在這一領域有著不同的優勢。

2016年11月,Intel公司發布了一個叫做 Nervana 的AI處理器,他們宣稱會在明年年中測試這個原型。

如果一切進展順利,Nervana 晶片的最終形態會在2017年底面世。

這個晶片名稱基於 Intel 早前購買的一個叫做Nervana的公司。

按照 Intel 的人所說,這家公司是世界上第一家專門為AI打造晶片的公司。

Intel 公司披露了一些關於這個晶片的一些細節,按照他們所說,這個項目代碼為「Lake Crest」,將會用到 Nervana Engine 和 Neon DNN 相關軟體。

這款晶片可以加速各類神經網絡,例如谷歌TensorFlow框架。

晶片由所謂的「處理集群」陣列構成,處理被稱作「活動點」的簡化數學運算。

相對於浮點運算,這種方法所需的數據量更少,因此帶來了10倍的性能提升。

Lake Crest 利用私有的數據連接創造了規模更大、速度更快的集群,其拓撲結構為圓環形或其他形式。

這幫助用戶創造更大、更多元化的神經網絡模型。

這一數據連接中包含12個100Gbps 的雙向連接,其物理層基於28G的串並轉換。

AI晶片竟如此吃香

人工智慧,特別是深度學習,這幾年爆發性的發展,很大程度上得益於晶片技術多年的積累。

如果不是晶片技術已經發展到了一定的高度,能夠給大規模的機器學習提供足夠的處理能力,就沒有戰勝人類頂尖棋手的 AlphaGo

過去十幾年驅動晶片技術發展的主要是通信,多媒體和智慧型手機這些應用。

而隨著這些應用增長放緩,晶片技術發展已經逐步轉向了AI領域,AI的驅動效應將在晶片技術上會有更明顯的體現。

所有人都看到了人工智慧的前景和其潛在的爆發力,2016年也成為了晶片企業和網際網路巨頭們在晶片領域全面展開部署的一年:先有CPU晶片巨頭因特爾年內三次大手筆收購人工智慧和GPU領域企業;後有谷歌宣布開發自己的處理系統,而蘋果、微軟、臉書和亞馬遜也都紛紛加入。

而在這其中,領跑者英偉達(Nvidia)因其在人工智慧領域的優勢使其成為了資本市場的絕對寵兒:在過去的一年中,曾經以遊戲晶片見長的 Nvidia 股價從十幾年的穩居30美元迅速飆升至120美元。

有報告顯示,世界上目前約有3000多家AI初創公司,試圖在AI晶片領域引發一輪全面的顛覆。

其代表為谷歌在2016年宣布將獨立開發一種名為TPU的全新的處理系統。

TPU是專門為機器學習應用而設計的專用晶片。

通過降低晶片的計算精度,減少實現每個計算操作所需的電晶體數量,從而能讓晶片的每秒運行的操作個數更高,這樣經過精細調優的機器學習模型就能在晶片上運行得更快,進而更快地讓用戶得到更智能的結果。

Google將TPU加速器晶片嵌入電路板中,利用已有的硬碟PCI-E接口接入數據中心伺服器中。

微軟也在使用一種叫做現場可變編程門陣列(FPGA)的新型處理器。

這個FPGA目前已支持微軟 Bing,未來它們將會驅動基於深度神經網絡——以人類大腦結構為基礎建模的人工智慧——的新搜索算法,在執行這個人工智慧的幾個命令時,速度比普通晶片快上幾個數量級。

有一些公司,例如 Nervada 和 Movidius,模擬GPU的平行模式,但是專注於更快速地移動數據,省略圖像所需要的功能。

其他公司,包括使用了被稱為「True North」的晶片的IBM公司,開發了由神經元、突觸等其他大腦特徵所啟發的晶片設計。

由於人工智慧巨大前景,各大巨頭都在儘量爭取技術上的優勢。

如果這其中的某家公司,如谷歌,用一種新型晶片替換掉現有晶片,這基本上就相當於顛覆了整個晶片行業。

在人工智慧的遙遠未來,GPU沒有代替CPU,而TPU也不會取代GPU,晶片市場將出現更大的需求和繁榮。

AI晶片發展趨勢

作為有深度的晶片領域公眾號,芯師爺從各個技術報告中歸納整理了AI晶片發展趨勢,現例舉如下。

異構計算(Heterogeneous Computing)

「Heterogeneous computing refers to systems that use more than one kind of processor or cores. These systems gain performance or energy efficiency not just by adding the same type of processors, but by adding dissimilar coprocessors, usually incorporating specialized processing capabilities to handle particular tasks」。

首先,異構計算中使用多種類型的處理器是為了能夠更好的提升整個並行處理系統的效率。

比如下圖就是高通的Snapdragon 820晶片的框圖,可以看出它包括了各種類型的處理器和硬體加速器。

這還沒包括軟體棧的複雜度。

同時,異構計算又面臨更多的挑戰「The presence of multiple processing elements raises all of the issues involved with homogeneous parallel processing systems, while the level of heterogeneity in the system can introduce non-uniformity in system development, programming practices, and overall system capability.」 簡單來說也就是不一致性帶來諸多問題。

對於異構計算,Nvidia和AMD最早提出了一些標準的方法,主要面向在CPU+GPU的系統,比如CUDA和OpenCL。

目前來看,神經網絡的 Training 使用CPU+GPU的硬體平台比較理想。

而對於這類系統,Nvidia 的 CUDA 已經做的很不錯了。

但對於一個 Inference 硬體平台來說,異構計算要複雜的多,除了CPU,GPU,系統里很可能還會有DSP,ASP,硬體加速器和FPGA這些硬體模塊,以及相應的固件和軟體。

在這種環境下,如何有效的發揮各類硬體的效率,提供統一易用的編程模型和軟體接口,就是個很大的問題。

之前的很多嘗試,比如OpenCL,HSA(Heterogeneous System Architecture) Foundation,都沒能真正解決這個問題。

而這個問題能不能解決,既是技術挑戰,也有利益上的角力。

Intel,Nvidia,AMD,Qualcomm,ARM都有自己的算盤,都想推自己的標準。

不管怎樣,在AI應用的驅動下,硬體平台的多樣性和效率要求的挑戰會越來越明顯。

整個產業對AI的熱情能不能推動這個問題的解決,很值得關注。

DSC和DSA

計算機體系結構宗師 David Patterson 說到,「我認為未來之星是深度學習領域的DSA處理器。

使用更高級的設計描述語言,例如Chisel,來加速設計,也會成為趨勢。

」神經網絡處理是一個新興的特殊domain,而且是一個有足夠體量來支持專門的方法學的domain。

換句話說,在這個領域值得投入資源來實現一套完善的方法學,一旦成功會有巨大的回報。

不過,Domain-Specific Computing 這個方向的提出也不是一天兩天了,要實現它的願景,確實需要做大量的工作。

它是一整套方法學,需要從設計語言到模型和工具的多方面支持。

「工欲善其事,必先利其器」,希望AI能給這個「看起來很美」的方法學一個有力的推動。

003ednc20170505

嚴格的說,Dataflow 架構本來是計算機體系結構中實現並行計算的一種軟硬體架構。

有自己一套完整的方法學。

下圖摘自Shaaban教授的課程,就是dataflow architecture 的一個概述。

但是,如果只看這種架構的主要特徵:1. 沒有PC(Program Counter),也就是說沒有複雜的程序流控制;2. 節點的處理由操作數(availability of operands)激活。

簡單來說這種架構是數據驅動的。

這一點和深度神經網絡Inference的需求是非常一致的,神經網絡是分層順序處理,有大量的數據處理,但不需要複雜的控制流程。

現在看到的很多神經網絡加速器的主要工作都放在了數據流的優化上。

GoogleTPU的脈動陣列架構,雖然並不是個嚴格意義上的 Dataflow Machine,但它也可是認為 dataflow 驅動的設計。

同時,Dataflow programming 也是一種重要的編程模型。

用 Wikipedia 的說法,就是「dataflow programming is a programming paradigm that models a program as a directed graph of the data flowing between operations, thus implementing dataflow principles and architecture」。

Google 的 TensorFlow 深度學習框架就是一個「open source software library for numerical computation using data flow graphs」.

另外一個例子是做深度神經網絡加速的 Startup 公司,Wave Computing(同時指出cloud的training和inference),把他們的架構稱作「A Coarse Grain Reconfigurable Array (CGRA) for Statically Scheduled Data Flow Computing」 。

具體來講,「Wave uses a data flow computing on a hybrid coarse grain/fine grain reconfigurable array (CGRA) of processors in a Wave dataflow processing unit (DPU). In this model, data flows between software kernels, which are called data flow agents. Each agent is compiled and statically scheduled across a reconfigurable array of data flow processing elements. The entire data flow computation is managed autonomously by the agents without the need for the control or memory of a host CPU. 」

總的來說,dataflow驅動是深度神經網絡的一大特點。

因此在設計神經網絡處理器的時候,其硬體架構和編程模型採用這些比較特殊的dataflow架構也是自然的選擇。

而目前很多神經網絡硬體加速器的設計,也都借鑑了脈動陣列,CGRA(Coarse-Grain Reconfigurable Architecure)這些「古老」的技術。

實際上,我們現在需要解決的問題(比如卷積運算的加速),並不是一個全新的問題,前人已經有了很完整的研究。

雖然AI是個全新的應用,但它卻給了很多老的架構和技術新的機會。

Clockless設計

在 Wave Computing 的設計中還有一個很有意思的地方,就是採用了Clockless CGRA Synchronization,從而實現了「In the large-scale CGRA, data flows between clusters of PEs at a nominal frequency of 6.7 GHz without the need for FIFOs used in other Globally Asynchronous Locally Synchronous(GALS) schemes」。

Clockless(或者叫asynchronous circuit, or self-timed circuit)設計採用握手信號(handshaking)而不是 clock 信號來實現模塊間的同步,從而擺脫傳統IC設計中 Clock tree 的束縛,實現更低的功耗或者更快的處理。

2006年的時候,當時的飛利浦電子孵化的一個startup(Handshake Solutions NV)實現了一個 clockless 的ARM9處理器。

下圖對比了 clocked 和 clockless 電路。

但是,由於這種方法的特殊性,在缺乏EDA工具支持的情況下很難在大規模的晶片設計中實現,所以一直也沒有很多應用。

不知道在未來的專用神經網絡處理器中,特別是在要求極低功耗的可穿戴應用中是不是又會看到它的身影。

Near-Data Processing 和先進存儲器

把深度神經網絡的 Inference 放到離數據源更近的地方,可以降低整個系統的複雜度,減少不必要的數據搬移,從而優化功耗和成本。

其中PIM(Processing in Memory)主要是把處理直接放在存儲單元的位置,這需要在電路(模擬信號)的層面重新設計存儲器。

而把處理放在sensor當中也是一大趨勢,這裡既可以是直接在sensor中用模擬或者混合信號電路做一些處理,也可以是在傳統的ISP中增加智能處理的功能。

下圖就是直接在memory cell做乘法和乘加的方法。

同時,新型存儲器技術也一直是研究的熱點。

而由於神經網絡處理的瓶頸往往在於存儲器,相信新的存儲器技術會首先在神經網絡應用中得到應用。

比如,embedded DRAM (eDRAM)已經在一些神經網絡處理器中被應用;而3D Memory(比如Hyper Memory Cube (HMC))的高帶寬和低功耗特性也很有吸引力。

另外,目前的深度神經網絡模型對「記憶」的要求越來越高,從RNN,到LSTM/GRU的「短期記憶」,到 Memory Network,Neural Turing Machine和Differentiable neural computers。

神經網絡已經開始使用更大範圍的外部存儲空間(external memory)實現「長期記憶」。

這也意味著對於新型存儲以及新的訪存機制有更多的挑戰和機會。

模擬和混合信號設計

在今年的ISSCC會議上我們看到了幾個使用模擬和混合電路的例子。

比如超低功耗人臉識別處理器就用了模擬電路實現 Haar-like 人臉檢測。

還有一些工作,也使用的定製電路和模擬電路實現特殊的存儲器設計。

而模擬和混合信號設計往往可以和上面說的 Near-Data Processing 相結合,比如在圖像 sensor 的模擬部分實現CNN處理或者其它一些算法。

FPGA器件和工具

我從2000年開始用FPGA,一直把FPGA作為晶片驗證的手段,而非直接的產品。

但隨著深度神經網絡需求的爆發,FPGA作為inference的平台表現出很好的特性(靈活性和效率的平衡),在很多場景可以直接為應用服務。

因此,可以預見,我們可以在FPGA領域看到快速的發展。

首先,FPGA器件(Xilinx和Intel/Altera是主要供應商)本身的功能會越來越強大。

Xilinx最新的高端FPGA已經是一個非常複雜的SOC平台了,除了傳統的FPGA電路,還集成了多核CPU,硬體的視頻編解碼功能,DDR接口,PCIe接口等等,很適合做大規模的inference應用。

另一方面,不管是 Xilinx 還是 Intel,都在改進FPGA的軟體開發環境,試圖對深度學習提供更好的支持。

比如,下圖所示的Xilinx reVISION Stack。

如果說AI應用會「逼著」晶片技術向前發展,它同時也會在很大程度上幫助晶片技術向前發展。

深度神經網絡強大之處在於,通過對大量數據進行學習,可以自己對問題(或應用)進行建模、提取 feature 或者作出判斷。

從某種程度上說,它已經強大到我們無法理解的程度了(或者說它和我們人類獲取知識的方式並不相同)。

而晶片設計和製造(工藝),都是建立在大量數據以及複雜的模型的基礎之上的。

利用神經網絡的優勢幫助我們提高晶片設計和製造技術是自然而然的思路。

另一方面,晶片設計和製造又是高度依賴自動化設計工具的領域,這些EDA工具中很多環節的算法也都有可能通過和AI結合來獲得更好的效果,或者提高生產效率。

全球AI晶片設計公司排名出爐

全球AI晶片公司排名日前出爐,中國竟然只有兩家上榜。

Knu Edge

Knu Edge 實際上並不是一個初創公司,它由NASA的前任負責人創立,已經在一個隱形模式下運營了10年。

Knu Edge最近從隱形的模式中走出,並讓全世界知道他們從一個匿名的投資人獲取1億美元的投資用來開發一個新的「神經元晶片」。

KUNPATH提供基於 Lamba Fabric 的晶片技術,Lamba Fabric 將會通過與現在市場上的GPUs、CPUs 和 FPGAs 完全不同的架構進行神經網絡的計算。

Lambda Fabric本質上是為在高要求的運算環境下向上拓展至512000台設備而設計,機架至機架延遲時間只有400毫微秒,低功耗的256核處理器。

KNUPATH技術以生物學原理為基礎,將會重新定義數據中心和消費設備市場中的晶片級/系統級計算。

對比其他相似的晶片,這個晶片技術應提供2倍到6倍的性能優勢,並且公司已經通過銷售他們的樣機系統獲得了收入。

在「Knu Edge 傘形結構」下,Knu Edge 由3個單獨的公司組成,Knu Path 提供他們的晶片,Knu Verse 提供通過驗證的軍事級的語音識別和驗證技術,Knurld.io 是一個允許開發者們去簡單地融合語音驗證到他們的專利產品的公共雲API服務(Public cloud API service)。

Knu Edge 宣稱,現在只需要對著麥克風說幾個詞就可以做到驗證電腦、網絡、移動應用和物聯網設備。

以後再也不用記住密碼將會是一件多棒的事情?

Nervana

創立於2014年,位於聖地亞哥的初創公司 NervanaSystems 已經從20家不同的投資機構那裡獲得了2440萬美元資金,而其中一家是十分受人尊敬的德豐傑風險投資公司(DraperFisherJurvetson,DFJ)。

TheNervanaEngine(將於2017年問世)是一個為深度學習專門定做和優化的ASIC晶片。

這個方案的實現得益於一項叫做 HighBandwidthMemory 的新型內存技術,同時擁有高容量和高速度,提供32GB的片上儲存和8TB每秒的內存訪問速度。

該公司目前提供一個人工智慧服務「inthecloud」,他們聲稱這是世界上最快的且目前已被金融服務機構、醫療保健提供者和政府機構所使用的服務,他們的新型晶片將會保證 Nervana 雲平台在未來的幾年內仍保持最快的速度。

地平線機器人

由中國人創立於2015年的初創企業 Horizon Robotics(地平線機器人)已經從包括 Sequoia 和傳奇的風險資本家 Yuri Milner 等投資人獲得了未透露金額的種子基金。

2016年7月1日,地平線機器人獲得了新一輪融資,這筆投資將用來加大對自動駕駛和智能家居領域的研發投入,加快產品研發和落地速度;推進人工智慧晶片和系統的研發。

他們正在著手於建立一個一站式人工智慧解決方案,定義「萬物智能」,讓生活更便捷、更有趣、更安全。

地平線致力於打造基於深度神經網絡的人工智慧「大腦」平台-包括軟體和晶片,可以做到低功耗、本地化的解決環境感知、人機互動、決策控制等問題。

其中,軟體方面,地平線做了一套基於神經網絡的OS,已經研發出分別面向自動駕駛的的「雨果」平台和智能家居的「安徒生」平台,並開始逐步落地。

硬體方面,未來地平線機器人還會為這個平台設計一個晶片——NPU(Neural Processing Unit),支撐自家的OS,到那時效能會提升2-3個數量級(100-1000倍)。

中星微電子

說起國內的人工智慧晶片,不得不提一下,今年6月20日,率先推出中國首款嵌入式神經網絡處理器(NPU)晶片中星微,這是全球首顆具備深度學習人工智慧的嵌入式視頻採集壓縮編碼系統級晶片,並取名「星光智能一號」。

這款基於深度學習的晶片運用在人臉識別上,最高能達到98%的準確率,超過人眼的識別率。

該晶片於今年3月6日實現量產,目前出貨量為十幾萬件。

該NPU採用了「數據驅動」並行計算的架構,單顆NPU(28nm)能耗僅為400mW,極大地提升了計算能力與功耗的比例,可以廣泛應用於高清視頻監控、智能駕駛輔助、無人機、機器人等嵌入式機器視覺領域。

krtkl

創立於2015年的 krtkl 致力於創造「一個微小的無線電腦用來創造一些完全不同的東西」。

技術人將會迷戀 Snickerdoodle,一個雙核ARM處理器、FPGA、WIFI、藍牙,起價於65美元,「以最小、最難做、最實惠賦能機器人、無人機和計算機視覺等的平台」。

這個產品事實上是通過眾籌獲得了超過16萬美金的資金。

最新的信息是說他們已經收到了 Snickerdoodle 初級版本,並且很快就會出貨。

Eyeriss

Eyeriss 事實上還不是一個初創公司,但是因為它是由MIT開發並且獲得了大量的媒體報導,所以我們不能從這個名單中排除它。

Eyeriss 是一個高效能的深度卷積神經網絡(CNN)加速器硬體,能夠讓移動設備執行自然語言處理和面部識別等任務,而無需連接至網際網路。

顯然,這是讓作業系統的機器學習變得更加便攜的最新嘗試。

換言之,智慧型手機、可穿戴設備、機器人、自動駕駛汽車、以及其它物聯網設備,都能夠在本地處理複雜的深度學習任務,這點在此前一直非常難以做到。

深度學習依賴於大規模的計算機處理性能,而「GPU加速」就是比較常見的一種方式。

儘管能夠勝任,但它也有一個最大的缺點——費電。

該硬體比起現有的圖形處理器GPUs更加高效、Eyeriss 的能效為傳統方法的十倍。

美國國防部高級研究計劃局(Darpa)提供部分資金,由 Vivienne Sze 領導的MIT團隊在今年的會議上公開了晶片,是最先進的神經網絡首次在定製晶片上進行演示。

國內AI晶片現狀

在一些知名的AI晶片廠商中,美國有13家公司,領軍者既有谷歌、英特爾、IBM這樣的科技巨頭,也有高通、英偉達、AMD、賽靈思這樣在各自領域中有絕對優勢的大公司,以及一些發展良好的中等規模公司和活躍的初創企業。

但中國則主要以初創公司為主,沒有巨頭。

其中七家企業中六家都是初創公司,均成立於近三年內,只有一家中等規模企業——中星微

從晶片類別來看,美國廠商遍布AI晶片的四大流派,IC設計環節的產業結構非常均衡,並且在GPU領域,美國企業是完全壟斷的,中國為零;在FPGA領域,只能跟隨賽靈思做解決方案;在ASIC領域,有些4家創業公司;類腦晶片,也有2家。

美國以絕對實力處於領先地位,但一批中國初創企業也在蓄勢待發。

但是,AI晶片領域的創新絕不是件一蹴而就的事情。

它涉及到人工智慧算法、程式語言、計算機體系結構、集成電路技術、半導體工藝的方方面面。

在巨大的國際競爭壓力下,靠單個企業研發投入,遠遠不夠;單靠有限的風險投資,也不行。

靠科技補貼,更是遠水解不了近渴。

AI領域創業空間巨大,所需資金規模巨大,所需資源巨大,單憑創業者個人和團隊的能力打天下已經不現實, AI創業者需要跟產業加速器和產業資本密切結合,抱團創新,如此才能有更廣闊的發展天地。

來源 | 中國資本證券網、雷鋒網、人工智慧學家

全景網、StarryHeavensAbove

電子發燒友網、36氪

芯師爺獨家整理


請為這篇文章評分?


相關文章 

「中國芯」離了美國到底行不行?

中興被罰,無數個問題拋了出來。去年的罰單,為何在今年冷不丁的給了一擊?中國「芯」離了美國,到底行不行?中國「芯」在其他領域能不能有所作為?第一個問題的答案顯而易見,中美貿易摩擦,雙方都在為各自尋...

零基礎看懂全球AI晶片,詳解「xPU」

編者按:本文來自知乎專欄AI in chip,作者鴻鶴,現任地平線機器人技術資深IC工程師,深度參與AI算法在晶片端的實現工作。獻給:對AI晶片行業有興趣、想快速了解相關公司和產品的各種讀者。不...

中國AI晶片初創公司被美國巨頭收購

【觀察者網 綜合報導】一家成立僅兩年的國內AI晶片初創獨角獸公司深鑒科技(DeePhi Tech)18日被美國晶片巨頭賽靈思(Xilinx)收購。雖然具體交易金額尚未可知,但業界人士評估,收購金...

2017年全球AI晶片公司大盤點

2017年,我們被AI公司的融資信息一次次刷屏,從2千萬到1億美金,讓我驚詫道,AI的黃金年代真的來了嗎?接下來讓我們一起回顧一下2016-2017年AI晶片公司融資概況。