淺談Google 的TPU
文章推薦指數: 80 %
Google TPU 的技術精髓:古老的脈動陣列(Systolic Array). Google 打造TPU,會面對兩個主要挑戰:. 低成本:架構需要盡其所能的簡單,不僅要能 ...
close科技趨勢企業專訪初創企業資訊保安營銷策略電子商務人工智能科技專欄科技趨勢企業專訪初創企業資訊保安營銷策略電子商務人工智能科技專欄人工智能企業趨勢淺談Google的TPU人工智能企業趨勢byKenLi on6一月,2018facebookTwitterGoogle+LinkedIn長期關心人工智能與深度學習的技術宅們,不可能未曾聽聞Google自行打造、為TensorFlow機器學習框架量身訂做,讓AlphaGo在世紀人機圍棋大戰,打敗李世乭九段的秘密武器:人工智能晶片TPU(TensorProcessingUnit)。
在HotChips29,Google也以「比較平易近人」的簡報形式(年初發表的是論文),介紹第一世代TPU的技術全貌與第二代的概觀。
WhyTPU?因為非「專職專業」不可開宗明義:過去提升效能的諸多手段,如一次處理更寬的資料、指令管線化、同時執行更多的指令、更高的運行時脈等,在近40年來,讓處理器變快了100萬倍。
但包含CISC到RISC的指令集改革,這些手段和一堆法則,現在都遭遇瓶頸了,現在還想突破性成長?可以說幾乎沒招了。
最後一句話開宗明義:有鑑於電晶體和功耗預算的限制,現在已經進入專用處理器的時代(有興趣可以參考IBM正在高喊的AccerleratedComputing)。
專注於「推論」的第一世代TPU人工智能應用可大略區分成兩個領域:「訓練/學習」和「推論/預測」,在成長(Development)階段,經過「訓練」(Training)的類神經網路,「學習」(Learning)如何執行工作,接著進入生產(Production)階段,類神經網路會被應用在「推論」(Inference)上,即對資料進行分類並「預測」(Prediction)出結果。
Google初代TPU僅能應用於推論(其實應該可以用來做訓練學習,可能是運算精度考量),能夠兼備訓練類神經網路,則是第二代TPU的故事了。
Google在HotChips29的主題演講有公開部分第二代TPU的資訊,讓兼具HBM記憶體與浮點運算能力的TPU,又變得更像GPU。
有別於當時多數「訓練」平台以GPU做為運算底層,而不得不使用浮點運算工作,GoogleTPU則是整數運算晶片,以達成更快的速度、更少的功耗,與更小的晶片面積。
後來NVIDIA與AMD的新型GPU也因「英雄所見略同」,擴增整數運算支援性,特別是8位元16位元短整數。
GoogleTPU的技術精髓:古老的脈動陣列(SystolicArray)Google打造TPU,會面對兩個主要挑戰:低成本:架構需要盡其所能的簡單,不僅要能降低成本,更要縮短產品開發時程,儘快部署到Google資料中心。
高效能:尤其致力著墨於免除傳統電腦的「范紐曼瓶頸」(vonNeumannbottleneck):記憶體跟不上運算。
考量到第一個成本因素,像GPU如此昂貴暴力的記憶體子系統,是壓根兒完全不考慮的選項。
換言之,須消耗較少的記憶體頻寬,卻能實現更高的運算吞吐量。
所以理論存在於古老論文已久,讓「運算多跑一會兒」的脈動陣列(或稱為脈動管線,SystolicPipeline),就在相隔30餘年之後,變身為雲端霸主初代人工智慧晶片的靈魂。
其概念也很簡單,既然運算動作反覆存取記憶體浪費時間,何不就「串串樂」,讓資料經過大量相同的處理單元(ProcessingElement,PE)?舉個例子,我們想要做連續加法運算,要進行6次+1,如其反覆存取記憶體6次,不如6個+1串在一起,不就畢其功於一役了?但脈動陣列的限制也很明顯:只適用於特定的運算,缺乏靈活性與泛用性。
很幸運的,像普及於特徵辨識的卷積神經網路(ConvolutionalNeuralNetworks,CNN),就是非常適合的應用,在GoogleTPU內轉化為一連串的8位元整數乘積運算,時脈僅700MHz,理論尖峰效能就92T,推論效率高達GPU的「10倍」。
TPU內的256×256「Matrix」部分就是很標準的脈動陣列,而TPU內的區塊名稱,也溢出了滿滿的「人工智能味」。
在脈動陣列內,「用來決定輸入資訊重要性」的「權重」(Weight)由上而下流動,而「替類神經網路加入非線性因素,以解決更複雜問題」的「激活值」(Activation)由左向右傳遞,如此簡單的結構,就足以同時達成指令流與資料流的管線化,並減輕記憶體子系統的負擔。
當然,天底下沒有白吃的午餐,簡單的硬體意味著複雜的軟體,但這對Google絕對不是問題。
自己做想要的晶片總是有好處的Google在一台伺服器安裝4張TPU運算卡。
與Intel18核Haswell和nVidiaK80規格比一比,無論晶粒面積和耗電量都少了一大截,而初代TPU還是比較落後的28nm製程。
Google是依據以下組態,部署並比較同時期CPU、GPU與自家TPU的差異性。
經過實驗證實,GoogleTPU享有數十倍於同期CPU與GPU的效能功耗比。
更重要的是,此計畫從開案、研發、晶片TapeOut、量產,一路到上線部署,僅僅只花了「15個月」(反觀動不動就好幾年的x86微架構),做到完美的TimeToMarket,世界上恐怕沒有其他企業,能比Google能透徹理解資料中心使用深度類神經網路進行推論的需求,採用簡單硬體設計,充分發揮軟體能力的策略,更是功不可沒。
像GPU的第二代TPUGoogle第一代TPU只能做推論,所以就有可以做深度學習的第二代。
我們就來瞧瞧乍看之下與GPU「殊途同歸」的第二代TPU,有什麼有趣的地方。
機械學習究竟需要何種運算精度,一直是沒有標準答案的問題,Google基於自身的需求,讓第二代TPU具備32位元單精度浮點運算的能力。
原先第一代TPU的256×256SystolicMatrix,演化成兩個128×128的運算核心(但犧牲掉部分精確度),並新增泛用性較高的純量運算單元。
此外,運算精度激增也加重記憶體頻寬需求,兩個運算核心個別加掛8GBHBM,提供較前代多出20倍的600GB/s理論頻寬,讓第二代TPU更近似新型GPU。
因HBM採用多晶片堆疊封裝,更能精簡電路板的設計與面積,提高佈署密度。
至於第二代TPU是否保留大型化的晶片內(on-chip)記憶體,如前代多達24MB用來存放激活值的緩衝區,與4MB用於暫存Matrix計算結果,Google尚未公布細節,就不得而知了。
總之,第二代TPU在Google資料中心的佈署樣貌就長這樣,64個TPUPod(四顆TPU)即可提供11.5P的浮點運算能量。
第二代TPU即將上線GoogleCloud替各位服務,而且宣稱使用TensorFlow機械學習框架,不需要大改程式碼,就可享受TPU的驚人效能。
在2013年底,Google爆炸性公開其「規劃部署已達3年」、開大規模商業化導入軟體定義網路(SDN)之先河的B4資料中心廣域網路,到現在不知不覺中,在眾多新創企業與學術機關四處宣傳其研發成果的當下,也一路遙遙領先,早已讓自家打造的人工智慧晶片邁進到第二代並投入商業運轉,讓人不得不佩服雲端服務霸主的研發能量與執行效率。
微軟、蘋果、IBM、Amazon等競爭對手,會不會盡速跟進如法炮製?我們可以等著,但唯一可以確定的是,以後銷售「人工智慧晶片」可能不會是好做的生意。
Tags:aigooglemachinelearningtensorflowTPUpreviousarticle三個理由告訴你:為什麼機器學習是解決IT運作難題的致勝法寶? nextarticle【鄧淑明博士「浪遊IT世界」】AI新世代(十三):翻轉教室 TheauthorKenLi世事洞明皆學問,人情練達即文章。
youmightalsolike美國政府否定人工智能創作版權OpenAI首席科學家:AI可能已開始擁有意識Google推出新計劃支援初創公司 提供GoogleCloud抵免額取代Cookies備受爭議Google取消Floc計劃Google與貿發局推「Google出口營商計劃」免費助中小企催谷出口貿易關注我們贊助熱門文章企業趨勢專題特寫業界專訪傳統工業青黃不接 保心安藥廠用新角度來看「工業4.0」byCatabellLee on12九月,2016企業趨勢專題特寫業界專訪HongKongindustrie4.0ReindustrializationSilde流動置頂share除了IT業抱怨沒有年輕人入行,其實更多傳統行業都面對同樣問題,不少傳統工藝都有機會失傳。
例如今次訪問的香港保心安藥廠,就因為年輕人不願入行而開始青黃不接,但保心安不是選擇放棄,而是希望借助提高自動化工序的比例來減少對熟手技工的依賴,並預定在明年達到全100%自動生產的目標。
企業趨勢專題特寫資訊保安HPE企業方案論壇聚焦數碼轉型 助企業把握創意經濟時代商機byKenLi on25七月,2016企業趨勢專題特寫資訊保安ArcSightArubacloudHelionHPEiotmobilitysecuritySilde流動置頂share創意經濟時代,講究對資訊敏感,能靈活回應市場的轉變,為此不論大中小企均積極謀求跟上時代步伐,踏上數碼轉型之路。
早前由HewlettPackardEnterprise(HPE)舉辦的TransformationSummit2016就聚焦混合IT、安全管理、物聯網及數碼化工作四個ICT行業的重要領域並展示其針對性的解決方案,探討企業應如何應對當中的挑戰與轉變,踏上數碼轉型之路,把握創意經濟時代下的機遇。
企業趨勢初創企業專題特寫市場營銷KlookXLalamove試水合推美食速遞服務 抗疫暗藏下一輪商機byCatabellLee on13三月,2020企業趨勢初創企業專題特寫市場營銷CoronavirusKlooklalamoveslide流動置頂置頂share一場武漢肺炎令本地餐飲業陷入寒冬期,不少食店生意大跌,唯有增設外賣自取或外送服務以開闢出路。
而在世衛正式宣佈武漢肺炎「全企業趨勢初創企業專題特寫市場營銷滙豐「數碼峰會」探討數碼營商之道 助企業把握致勝商機byKenLi on7十月,2016企業趨勢初創企業專題特寫市場營銷DigitalSummitecommercegoogleHSBCSildeslidesocialmediasupplychain流動置頂share早前政府數字顯示全港有近500萬名10歲以上人士擁有智能手機,可見智能手機在港的普及程度甚高。
儘管不少人在個人生活中善用數碼科技,但似乎未能將這些技巧靈活應用到商業用途上。
滙豐工商金融最新發表的研究報告顯示,雖然大部分本地企業了解在業務上運用數碼科技的好處,但仍有74%的企業完全沒有計劃如何在業務上採用數碼科技。
為此匯豐舉辦「數碼峰會」,並邀得一眾業界領袖和創業家共同探討未來科技趨勢以及數碼營商之道。
Posting....
延伸文章資訊
- 1Google 研發了一塊TPU 晶片,省下建資料中心的錢還推動了 ...
由於有了自己的晶片,Google 不用再購買別家的晶片來適應自己的神經網路和人工智慧架構,而Google 甚至有可能成為TPU 晶片的供應商,因為像Facebook, ...
- 2為何Google當初決定自行開發TPU晶片?Google TPU主要設計 ...
Google很早就在資料中心內大量部署TPU,用於加速AI模型訓練和推論部署使用, ... Cliff Young回顧機器學習革命過程,可以2012年的AlexNet神經網路架構 ...
- 3Google Tensor 是一款缺乏自主架構設計前提之下 - Cool3c
Google,ARM,AI,tpu,TensorFlow,Tensor,Google Tensor(167273) ... Tensor 的TPU 架構是集結Google 多年AI 軟硬體研發的...
- 4Google AI云端芯片:TPU架构分析 - 知乎专栏
Google AI云端芯片:TPU架构分析. 2 年前. 算力、大数据、深度学习三个燃料同时催生了人工智能的第三 ...
- 5谷歌TPU研究論文:專注神經網路專用處理器
在TPU與CPU和GPU的效能比較部分,Google選擇了兩款並非最新但具有代表性的平臺——Intel Haswell架構的Xeon 5處理器和Nvidia的K80處理器,其整合板卡後 ...