千億美金市場,人工智慧晶片競賽正式開啟
文章推薦指數: 80 %
版權聲明:本文由半導體行業觀察翻譯自EETIMES,版權歸原作者所有,欲轉載者請諮詢小編。
在過去的2016年,在計算機產業來說,相信沒有一個概念比人工智慧更熱門。
跨入2017年,專家們表示,人工智慧生態圈的需求增長會更加迅猛。
主要集中在為深度神經網絡找尋性能和效率更適合的「引擎」。
現在的深度學習系統依賴於軟體定義網絡和大數據學習產生的超大型運算能力,並靠此來實現目標。
但很遺憾的是,這類型的運算配置是很難嵌入到那些運算能力、存儲大小、和帶寬都有限制的系統中(例如汽車、無人機和物聯網設備)。
這就給業界提出了一個新的挑戰,如何通過創新,把深度神經網絡的運算能力嵌入到終端設備中去。
Movidius公司的CEO Remi El-Ouazzane在幾個月前說過,將人工智慧擺在網絡的邊緣將會是一個大趨勢。
Remi El-Ouazzane
在問到為什麼人工智慧會被「趕」到網絡邊緣的時候,CEA Architecture Fellow Marc Duranton給出了三個原因:分別是安全、隱私和經濟。
他認為這三點是驅動業界在終端處理數據的重要因素。
他指出,未來將會衍生更多「將數據轉化為信息」的需求。
並且這些數據越早處理越好,他補充說。
CEA Architecture Fellow Marc Duranton
攝像一下,假如你的無人駕駛汽車是安全的,那麼這些無人駕駛功能就不需要長時間依賴於聯盟處理;假設老人在家裡跌倒了,那麼這種情況當場就應該檢測到並判斷出來。
考慮到隱私原因,這些是非常重要的,Duranton強調。
但這並不意味著收集家裡十個攝像頭的所有圖片,並傳送給我,就稱作一個號的提醒。
這也並不能降低「能耗、成本和數據大小」,Duranton補充說。
競賽正式開啟
從現在的情景看來,晶片供應商已經意識到推理機的增長需求。
包括Movidus (Myriad 2), Mobileye (EyeQ 4 & 5) 和Nvidia (Drive PX)在內的眾多半導體公司正在角逐低功耗、高性能的硬體加速器。
幫助開發者更好的在嵌入式系統中執行「學習」。
從這些廠商的動作和SoC的發展方向看來,在後智慧型手機時代,推理機已經逐漸成為半導體廠商追逐的下一個目標市場。
在今年早些時候,Google的TPU橫空出世,昭示著業界意圖在機器學習晶片中推動創新的的意圖。
在發布這個晶片的時候,搜索巨人表示,TPU每瓦性能較之傳統的FPGA和GPU將會高一個數量級。
Google還表示,這個加速器還被應用到了今年年初風靡全球的AlphaGo系統裡面。
但是從發布到現在,Google也從未披露過TPU的具體細節,更別說把這個產品對外出售。
很多SoC從業者從谷歌的TPU中得出了一個結論,他們認為,機器學習需要定製化的架構。
但在他們針對機器學習做晶片設計的時候,他們又會對晶片的架構感到懷疑和好奇。
同時他們想知道業界是否已經有了一種衡量不同形態下深度神經網絡(DNN)性能的工具。
工具已經到來
CEA聲稱,他們已經為幫推理機探索不同的硬體架構做好了準備,他們已經開發出了一個叫做N2D2,的軟體架構。
他們夠幫助設計者探索和聲稱DNN架構。
「我們開發這個工具的目的是為了幫助DNN選擇適合的硬體」,Duranton說。
到2017年第一季度,這個N2D2會開源。
Duranton承諾。
N2D2的特點在於不僅僅是在識別精度的基礎上對比硬體,它還能從處理時間、硬體成本和能源損耗的多個方面執行對比。
因為針對不同的深度學習應用,其所需求的硬體配置參數都是不一樣的,所以說以上幾點才是最重要的,Duranton表示。
N2D2的工作原理
N2D2為現存的CPU、GPU和FPGA提供了一個參考標準。
邊緣計算的障礙
作為一個資深的研究組織,CEA已經在如何把DNN完美的推廣到邊緣計算領域進行了長時間的深入研究。
在問到執行這種推進的障礙時,Duranton指出,由於功耗、尺寸和延遲的限制,這些「浮點」伺服器方案不能應用。
這就是最大的障礙。
而其他的障礙包括了「大量的Mac、帶寬和晶片上存儲的尺寸」,Duranton補充說。
那就是說如何整合這種「浮點」方式,是最先應該被解決的問題。
Duranton認為,一些新的架構是在所難免的,隨之而來的一些類似「spike code」的新coding也是必然的。
經過CEA的研究指出,甚至二進位編碼都不是必須的。
他們認為類似spike coding這類的時間編碼在邊緣能夠迸發出更強大的能量。
Spike coding之所以受歡迎,是因為它能明確展示神經系統內的數據解碼。
往深里講,就是說這些基於事件的的編碼能夠兼容專用的傳感器和預處理。
這種和神經系統極度相似的編碼方式使得混合模擬和數位訊號更容易實現,這也能夠幫助研究者打造低功耗的硬體加速器。
CEA也正在思考把神經網絡架構調整到邊緣計算的潛在可能。
Duranton指出,現在人們正在推動使用『SqueezeNet取替AlexNet。
據報導,為達到同等精度,使用前者比後者少花50倍的參數。
這類的簡單配置對於邊緣計算、拓撲學和降低Mac的數量來說,都是很重要的。
Duranton認為,從經典的DNN轉向嵌入式網絡是一種自發的行為。
P-Neuro,一個臨時的晶片
CEA的野心是去開發一個神經形態的電路。
研究機構認為,在深度學習中,這樣的一個晶片是推動把數據提取放在傳感器端的一個有效補充。
但在達到這個目標之前,CEA相處了很多權宜之計。
例如開發出D2N2這樣的工具,幫助晶片開發者開發出高TOPS的DNN解決方案。
而對於那些想把DNN轉移到邊緣計算的玩家來說,他們也有相對應的硬體去實現。
這就是CEA提供的低功耗可編程加速器——P-Neuro。
現行的P-Neuro晶片是基於FPGA開發的。
但Duranton表示,他們已經把這個FPAG變成了一個ASIC。
和嵌入式CPU對比的P-Neuro demo
在CEA的實驗室,Duranton他們已經在這個基於FPAG的P-Neuro搭建了一個面部識別的卷積神經網絡(CNN)。
這個基於 P-Neuro的Demo和嵌入式CPU做了對比。
(樹莓派、帶有三星Exynos處理器的安卓設備)。
他們同樣都運行相同的CNN應用。
他們都安排去從18000個圖片的資料庫中去執行「人臉特徵提取」。
根據示例展示,P-Neuro的速度是6942張圖片每秒,而功耗也只是2776張圖每瓦。
P-Neuro和GPU、CPU的對比
如圖所示,和Tegra K1相比,基於FPGA的P-Neuro在100Mhz工作頻率的時候,工作更快,且功耗更低。
P-Neuro是基於集群的SIMD架構打造,這個架構是以優化的分級存儲器體系和內部連接被大家熟知的。
P-Neuro的框圖
對於CEA的研究者來說 ,P-Neuro 只是一個短期方案。
現行的 P-Neuro 是在一個CMOS設備上打造的,使用的是二進位編碼。
他們團隊正在打造一個全CMOS方案,並打算用spike coding。
為了充分利用先進設備的優勢,並且打破密度和功率的問題,他們團隊設立了一個更高的目標。
他們考慮過把RRAM當做突觸元素,還考慮過FDSOI和納米線這樣的製程。
在一個「EU Horizon 2020」的計劃裡面,他們希望做出一個神經形態架構的晶片,能夠支持最先進的機器學習。
同時還是一個基於spike的學習機制。
Neuromorphic處理器
這就是一個叫做NeuRAM3的項目。
屆時,他們的晶片會擁有超低功耗、尺寸和高度可配置的神經架構。
他們的目標是較之傳統方案,打造一個能將功耗降低50倍的產品。
Neuromorphic處理器
Neuromorphic處理器的基本參數
據介紹,這個方案包含了基於FD-SOI工藝的整體集成的3D技術,另外還用到的RRAM來做突觸元素。
在NeuRAM3項目之下,這個新型的混合信號多核神經形態晶片設備較之IBM的TrueNorth,能明顯降低功耗。
與IBM的TrueNorth對比
而NeuRAM3項目的參與者包括了IMEC, IBM Zurich, ST Microelectronics, CNR (The National Research Council in Italy), IMSE (El Instituto de Microelectrónica de Sevilla in Spain), 蘇黎世大學和德國的雅各布大學。
更多AI晶片角逐
其實AI晶片這個市場,已經吸引了很多玩家,無論是傳統的半導體業者,還是所謂的初創企業,都開始投奔這個下一個金礦。
除了上面說的CEA這個。
我們不妨來看一下市場上還有哪些AI晶片。
一、傳統廠商的跟進
(1)Nvidia
英偉達是GPU霸主,雖然錯過了移動時代,但他們似乎在AI時代,重獲榮光,從其過去一年內的股票走勢,就可以看到市場對他們的信心。
我們來看一下他有什麼計劃,在這個領域。
在今年四月,Nvidia發布了一個先進的機器學習晶片——Tesla P100 GPU。
按照英偉達CEO黃仁勛所說,這個產品較之英偉達的前代產品,任務處理速度提高了12倍。
這個耗費了20億美元開發的晶片上面集成了1500億個電晶體。
據介紹,全新的 NVIDIA Pascal™ 架構讓 Tesla P100 能夠為 HPC 和超大規模工作負載提供超高的性能。
憑藉每秒超過 20 萬億次的
FP16 浮點運算性能,經過優化的 Pascal 為深度學習應用程式帶來了令人興奮的新可能。
而通過加入採用 HBM2 的 CoWoS(晶圓基底晶片)技術,Tesla P100 將計算和數據緊密集成在同一個程序包內,其內存性能是上一代解決方案的 3 倍以上。
這讓數據密集型應用程式的問題解決時間實現了跨時代的飛躍。
再者,因為搭載了 NVIDIA NVLink™ 技術, Tesla P100的快速節點可以顯著縮短為具備強擴展能力的應用程式提供解決方案的時間。
採用 NVLink 技術的伺服器節點可以 5 倍的 PCIe 帶寬互聯多達八個 Tesla P100。
這種設計旨在幫助解決擁有極大計算需求的 HPC 和深度學習領域的全球超級重大挑戰。
(2)Intel
在今年十一月。
Intel公司發布了一個叫做Nervana的AI處理器,他們宣稱會在明年年中測試這個原型。
如果一切進展順利,Nervana晶片的最終形態會在2017年底面世。
這個晶片是基於Intel早前購買的一個叫做Nervana的公司。
按照Intel的人所說,這家公司是地球上第一家專門為AI打造晶片的公司。
Intel公司披露了一些關於這個晶片的一些細節,按照他們所說,這個項目代碼為「Lake Crest」,將會用到Nervana Engine 和Neon DNN相關軟體。
。
這款晶片可以加速各類神經網絡,例如谷歌TensorFlow框架。
晶片由所謂的「處理集群」陣列構成,處理被稱作「活動點」的簡化數學運算。
相對於浮點運算,這種方法所需的數據量更少,因此帶來了10倍的性能提升。
Lake Crest利用私有的數據連接創造了規模更大、速度更快的集群,其拓撲結構為圓環形或其他形式。
這幫助用戶創造更大、更多元化的神經網絡模型。
這一數據連接中包含12個100Gbps的雙向連接,其物理層基於28G的串並轉換。
這一2.5D晶片搭載了32GB的HBM2內存,內存帶寬為8Tbps。
晶片中沒有緩存,完全通過軟體去管理片上存儲。
英特爾並未透露這款產品的未來路線圖,僅僅表示計劃發布一個名為Knights Crest的版本。
該版本將集成未來的至強處理器和Nervana加速處理器。
預計這將會支持Nervana的集群。
不過英特爾沒有透露,這兩大類型的晶片將如何以及何時實現整合。
至於整合的版本將會有更強的性能,同時更易於編程。
目前基於圖形處理晶片(GPU)的加速處理器使編程變得更複雜,因為開發者要維護單獨的GPU和CPU內存。
據透露,到2020年,英特爾將推出晶片,使神經網絡訓練的性能提高100倍。
一名分析師表示,這一目標「極為激進」。
毫無疑問,英特爾將迅速把這一架構轉向更先進的製造工藝,與已經採用14納米或16納米FinFET工藝的GPU展開競爭。
(3)IBM
百年巨人IBM,在很早以前就發布過wtson,現在他的人工智慧機器早就投入了很多的研製和研發中去。
而在去年,他也按捺不住,投入到類人腦晶片的研發,那就是TrueNorth。
TrueNorth是IBM參與DARPA的研究項目SyNapse的最新成果。
SyNapse全稱是Systems of Neuromorphic Adaptive Plastic Scalable Electronics(自適應可塑可伸縮電子神經系統,而SyNapse正好是突觸的意思),其終極目標是開發出打破馮•諾依曼體系的硬體。
這種晶片把數字處理器當作神經元,把內存作為突觸,跟傳統馮諾依曼結構不一樣,它的內存、CPU和通信部件是完全集成在一起。
因此信息的處理完全在本地進行,而且由於本地處理的數據量並不大,傳統計算機內存與CPU之間的瓶頸不復存在了。
同時神經元之間可以方便快捷地相互溝通,只要接收到其他神經元發過來的脈衝(動作電位),這些神經元就會同時做動作。
2011年的時候,IBM首先推出了單核含256 個神經元,256×256 個突觸和 256 個軸突的晶片原型。
當時的原型已經可以處理像玩Pong遊戲這樣複雜的任務。
不過相對來說還是比較簡單,從規模上來說,這樣的單核腦容量僅相當於蟲腦的水平。
不過,經過3年的努力,IBM終於在複雜性和使用性方面取得了突破。
4096個內核,100萬個「神經元」、2.56億個「突觸」集成在直徑只有幾厘米的方寸(是2011年原型大小的1/16)之間,而且能耗只有不到70毫瓦,IBM的集成的確令人印象深刻。
這樣的晶片能夠做什麼事情呢?IBM研究小組曾經利用做過DARPA 的NeoVision2 Tower數據集做過演示。
它能夠實時識別出用30幀每秒的正常速度拍攝自史丹福大學胡佛塔的十字路口視頻中的人、自行車、公交車、卡車等,準確率達到了80%。
相比之下,一台筆記本編程完成同樣的任務用時要慢100倍,能耗卻是IBM晶片的1萬倍。
跟傳統計算機用FLOPS(每秒浮點運算次數)衡量計算能力一樣,IBM使用SOP(每秒突觸運算數)來衡量這種計算機的能力和能效。
其完成460億SOP所需的能耗僅為1瓦—正如文章開頭所述,這樣的能力一台超級計算機,但是一塊小小的助聽器電池即可驅動。
通信效率極高,從而大大降低能耗這是這款晶片最大的賣點。
TrueNorth的每一內核均有256個神經元,每一個神經有分別都跟內外部的256個神經元連接。
(4)Google
其實在Google上面,我是很糾結的,這究竟是個新興勢力,還是傳統公司。
但考慮到Google已經那麼多年了,我就把他放在傳統裡面吧。
雖然傳統也是很新的。
而谷歌的人工智慧相關晶片就是TPU。
也就是Tensor Processing Unit。
TPU是專門為機器學習應用而設計的專用晶片。
通過降低晶片的計算精度,減少實現每個計算操作所需的電晶體數量,從而能讓晶片的每秒運行的操作個數更高,這樣經過精細調優的機器學習模型就能在晶片上運行的更快,進而更快的讓用戶得到更智能的結果。
Google將TPU加速器晶片嵌入電路板中,利用已有的硬碟PCI-E接口接入數據中心伺服器中。
據Google 資深副總Urs Holzle 透露,當前Google TPU、GPU 並用,這種情況仍會維持一段時間,但也語帶玄機表示,GPU 過於通用,Google 偏好專為機器學習設計的晶片。
GPU 可執行繪圖運算工作,用途多元;TPU 屬於ASIC,也就是專為特定用途設計的特殊規格邏輯IC,由於只執行單一工作,速度更快,但缺點是成本較高。
至於CPU,Holzle 表示,TPU
不會取代CPU,研發TPU 只是為了處理尚未解決的問題。
但是他也指出,希望晶片市場能有更多競爭。
如果AI算法改變了(從邏輯上講隨著時間的推移算法應該會改變),你是不是想要一款可以重新編程的晶片,以適應這些改變?如果情況是這樣的,另一種晶片適合,它就是FPGA(現場可編程門陣列)。
FPGA可以編程,和ASIC不同。
微軟用一些FPGA晶片來增強必應搜尋引擎的AI功能。
我們很自然會問:為什麼不使用FPGA呢?
谷歌的回答是:FPGA的計算效率比ASIC低得多,因為它可以編程。
TPU擁有一個指令集,當TensorFlow程序改變時,或者新的算法出現時,它們可以在TPU上運行。
現在問題的答案開始浮現。
在谷歌看來,能耗是一個重要的考量標準,數據中心相當巨大,建設在世界各地,包括芬蘭和台灣。
能耗越高,運營的成本就越高,隨著時間的推移實際消耗的金錢會成倍增長。
谷歌工程師對比了FPGA和ASIC的效率,最終決定選擇ASIC。
問題的第二部分與TPU的指令集有關。
這是一套基本的命令,它以硬編碼形式存在於晶片中,能夠識別、執行;在晶片世界,指令集是計算機運行的基礎。
在開發TPU指令集時,它是專門用來運行TensorFlow的,TensorFlow是一個開源軟體庫,針對的是AI應用的開發。
谷歌認為,如果AI有必要在底層進行改變,極可能發生在軟體上,晶片應該具備彈性,以適應這種改變。
TPU架構的技術細節讓許多了解晶片的人驚奇。
Anandtech的Joshua Ho有一個有趣的理論:TPU更加類似於第三類晶片,也就是所謂的數位訊號處理器(Digital Signal Processor)。
(5)微軟
這是又一個由軟轉硬的代表,微軟蟄伏六年,打造出了一個迎接AI世代的晶片。
那就是Project Catapult。
據介紹,這個FPGA 目前已支持微軟Bing,未來它們將會驅動基於深度神經網絡——以人類大腦結構為基礎建模的人工智慧——的新搜索算法,在執行這個人工智慧的幾個命令時,速度比普通晶片快上幾個數量級。
有了它,你的計算機螢幕只會空屏 23 毫秒而不是 4 秒。
在第三代原型中,晶片位於每個伺服器的邊緣,直接插入到網絡,但仍舊創造任何機器都可接入的 FPGA 池。
這開始看起來是 Office 365 可用的東西了。
最終,Project Catapult 準備好上線了。
另外,Catapult 硬體的成本只占了伺服器中所有其他的配件總成本的 30%,需要的運轉能量也只有不到 10%,但其卻帶來了 2 倍原先的處理速度。
另外還有賽靈思、高通、中國寒武紀等一系列晶片投入到AI的研發。
我們暫且按下。
先看一下新興的AI晶片勢力。
二、新興勢力
(1)KnuEdge
KnuEdge實際上並不是一個初創公司,它由NASA的前任負責人創立,已經在一個隱形模式下運營了10年。
KnuEdge最近從隱形的模式中走出,並讓全世界知道他們從一個匿名的投資人獲取1億美元的投資用來開發一個新的「神經元晶片」。
KUNPATH提供基於LambaFabric的晶片技術,LambaFabric將會通過與現在市場上的GPUs、CPUs和FPGAs完全不同的架構進行神經網絡的計算。
LambdaFabric本質上是為在高要求的運算環境下向上拓展至512000台設備而設計,機架至機架延遲時間只有400毫微秒,低功耗的256核處理器。
KNUPATH技術以生物學原理為基礎,將會重新定義數據中心和消費設備市場中的晶片級/系統級計算。
對比其他相似的晶片,這個晶片技術應提供2倍到6倍的性能優勢,並且公司已經通過銷售他們的樣機系統獲得了收入。
在「KnuEdge傘形結構」下,KnuEdge由3個單獨的公司組成,KnuPath提供他們的晶片,KnuVerse提供通過驗證的軍事級的語音識別和驗證技術,Knurld.io是一個允許開發者們去簡單地融合語音驗證到他們的專利產品的公共雲API服務(Public cloud API
service)。
KnuEdge宣稱,現在只需要對著麥克風說幾個詞就可以做到驗證電腦、網絡、移動應用和物聯網設備。
以後再也不用記住密碼將會是一件多棒的事情?
(2)Nervana
這個公司已經被英特爾收購了,但我覺得我還是有必要介紹一下這個公司。
Nervana創立於2014年,位於聖地亞哥的初創公司Nervana Systems已經從20家不同的投資機構那裡獲得了2440萬美元資金,而其中一家是十分受人尊敬的德豐傑風險投資公司(Draper Fisher Jurvetson,DFJ)。
在·The Nervana Engine(將於2017年問世)是一個為深度學習專門定做和優化的ASIC晶片。
這個方案的實現得益於一項叫做High Bandwidth Memory的新型內存技術,同時擁有高容量和高速度,提供32GB的片上儲存和8TB每秒的內存訪問速度。
該公司目前提供一個人工智慧服務「in the
cloud」,他們聲稱這是世界上最快的且目前已被金融服務機構、醫療保健提供者和政府機構所使用的服務,他們的新型晶片將會保證Nervana雲平台在未來的幾年內仍保持最快的速度。
(3)地平線機器人
由余凱創立於2015年的初創企業Horizon Robotics(地平線機器人)已經從包括Sequoia和傳奇的風險資本家Yuri Milner等投資人獲得了未透露金額的種子基金。
後來更是獲得了已經獲得了晨興、高瓴、紅杉、金沙江、線性資本、創新工場和真格基金的聯合投資。
他們正在著手於建立一個一站式人工智慧解決方案,定義「萬物智能」,讓生活更便捷、更有趣、更安全。
地平線致力於打造基於深度神經網絡的人工智慧 「大腦」 平台 - 包括軟體和晶片,可以做到低功耗、本地化的解決環境感知、人機互動、決策控制等問題。
其中,軟體方面,地平線做了一套基於神經網絡的 OS,已經研發出分別面向自動駕駛的的 「雨果」 平台和智能家居的 「安徒生」 平台,並開始逐步落地。
硬體方面,未來地平線機器人還會為這個平台設計一個晶片——NPU (Neural Processing Unit) ,支撐自家的 OS,到那時效能會提升 2-3 個數量級(100-1000 倍)。
安徒生平台方面,今年3月 上海的家博會上,地平線機器人展示了與家電大廠合作的智能家電,近期還會推出其他新品。
雨果平台方面,今年3月9日奇點汽車發布會上,地平線機器人首次展示了基於雨果平台的 ADAS(先機輔助駕駛系統)原型系統。
據悉,世界某知名 tier-1 汽車零部件供應商的 ADAS 系統也確定將採用地平線研發的單目感知技術。
(4)krtkl
創立於2015年的krtkl致力於創造「一個微小的無線電腦用來創造一些完全不同的東西」。
技術人將會迷戀Snickerdoodle,一個雙核ARM處理器、FPGA、WIFI、藍牙,起價於65美元,「以最小、最難做、最實惠賦能機器人、無人機和計算機視覺等的平台」。
這個產品事實上是通過眾籌獲得了超過16萬美金的資金。
最新的信息是說他們已經收到了Snickerdoodle初級版本,並且很快就會出貨。
這款開拓板是基於XilinxZynq
SoC,集成了ARM處置器和可編程FPGA。
用戶甚至可以經過手機上的專用APP對其舉行編程,供230個用戶可用的I/O接口,應用靈巧兼容很多擴展板卡,其特徵如次:
選擇Zynq 7010SoCchip,集成雙核ARM Cortex-A9@667Mhz處置器和430K LUT的FPGA資源(可晉級為Zynq [email protected] LUT)
這款開拓板的一大亮點是不僅支援傳統的MicroUSB程序燒寫,終端調試等效能,還支援手機終端操控,應用官方供的Apps,經過Wi-Fi連接開拓板,用戶可以下載程序,管腳把持,管腳復用以及體系把持能效能。
(5)Eyeriss
Eyeriss事實上還不是一個初創公司,但是因為它是由MIT開發並且獲得了大量的媒體報導,所以我們不能從這個名單中排除它。
Eyeriss是一個高效能的深度卷積神經網絡(CNN)加速器硬體,架構圖如下:
MIT 表示,該晶片內建168 個核心,專門用來部署神經網路(neural network),效能為一般行動GPU 的10 倍,也因其效能高,不需透過網路處理資料,就能在行動裝置上直接執行人工智慧演算法。
其具有辨識人臉、語言的能力,可應用在智慧型手機、穿戴式裝置、機器人、自動駕駛車與其他物聯網應用裝置上。
而MIT 研究出的Eyeriss 晶片之所以能大量提升效能,關鍵便在於最小化GPU 核心和記憶體之間交換資料的頻率(此運作過程通常會消耗大量的時間與能量),且一般GPU 內的核心通常共享單一記憶體,但Eyeriss 的每個核心擁有屬於自己的記憶體。
此外,Eyeriss 晶片還能在將資料傳送到每一個核心之前,先進行資料壓縮,且每一個核心都能立即與鄰近的核心直接溝通,因此若需要共享資料,核心們不需要透過主要記憶體就能傳遞。
寫在最後
由於小編見解有限,文章體現的不會是所有的AI晶片,有哪些被遺漏了或者錯過了,請大家留言補上。
【關於轉載】:轉載僅限全文轉載並完整保留文章標題及內容,不得刪改、添加內容繞開原創保護,且文章開頭必須註明:轉自「半導體行業觀察icbank」微信公眾號。
謝謝合作!
【關於投稿】:歡迎半導體精英投稿,一經錄用將署名刊登,紅包重謝!來稿郵件請在標題標明「投稿」,並在稿件中註明姓名、電話、單位和職務。
歡迎添加我的個人微信號MooreRen001或發郵件到 [email protected]點擊閱讀原文加入摩爾精英