阿里平頭哥發布首款 AI 晶片「含光」:含而不露,光而不耀
文章推薦指數: 80 %
作者 | 包永剛編輯 | 唐里
該晶片是一款雲端AI晶片,也是全球最高性能的AI推理晶片。
上周,平頭哥以產品命名猜想為話題預告本周將發布重磅新品。
2019年杭州雲棲大會上,阿里巴巴集團首席技術官兼阿里雲智能總裁張建鋒發布了阿里的首款AI晶片含光800,該晶片是一款雲端AI晶片,也是全球最高性能的AI推理晶片。
含光800主要應用於視覺場景,已經在阿里巴巴集團內多個場景大規模應用,其它企業可以通過阿里雲獲得含光NPU的算力。
據悉,含光為上古三大神劍之一,該劍含而不露,光而不耀,正如含光800帶來的無形卻強勁的算力。
含光800為何能打破記錄?
根據張建鋒的說法,在業界標準的ResNet-50測試中,含光800推理性能達到78563 IPS,比目前業界最好的AI晶片性能高4倍;能效比500 IPS/W,是第二名的3.3倍。
含光800不僅Resnet50的成績打破記錄,從設計到商用的速度也很快。
張建鋒表示,平頭哥用大概一年半的時間實現了含光800從設計到商用。
雷鋒網(公眾號:雷鋒網)了解到,平頭哥用7個月完成了前端設計,之後用3個月就成功流片。
僅成立一年的平頭哥半導體為何這麼快就能設計出雲端AI晶片?
要知道,晶片作為典型的長周期產品,想加速晶片的商用,在硬體和軟體方面都需要有很強的實力,特別是在AI時代,軟硬一體化的重要性更加突顯。
平頭哥就得益於阿里在軟硬體方面的積累,算法方面,阿里巴巴達摩院機器智能實驗室過去兩年構建了完整的算法體系,涵蓋語音智能、語言技術、機器視覺、決策智能等方向,並且取得多個世界領先水平的成果;硬體方面,阿里巴巴此前已在伺服器、FPGA以及存儲等領域擁有多年研發經驗,此外,平頭哥團隊在體系結構、編譯技術等領域擁有深厚的技術儲備。
含光800性能的突破得益於軟硬體的協同創新,晶片架構方面,含光800採用創新的架構,針對深度學習中使用的大量權重參數和張量數據,在支持稀疏壓縮與量化處理的基礎上,通過獨特設計的數據訪存與流水線處理技術,大大減低了I/O需求和數據的搬移。
NPU同時深度優化了卷積,矩陣乘,向量計算和各種激活函數,通過高有效的硬體資源調度和全並行的數據流處理,把AI運算的性能和能效都推向極致。
其中,性能的提升必須解決內存牆問題。
所謂的內存牆,是指採用採用馮諾依曼結構的處理器,存儲和運算處理分離,當進行深度神經網絡處理時,算力得到了提升,但大量讀寫運行操作會受到帶寬限制,晶片的整體性能提升也同時受到限制。
平頭哥的做法是通過自研架構大幅減少對內存的訪問,在保證性能的情況下,把晶片功耗降到最低水平。
具體而言,含光800會根據神經網絡推理運算特徵,設計特定的硬體、高速連接的存儲結構以及專用指令集,對內存和計算單元實現高效組織管理,實現單條指令完成多個操作,提高計算效率和內存訪問效率。
3個月發3款晶片新品,阿里「硬」了
阿里首款AI晶片發布之後,其從雲端到終端的產品布局已經十分明確。
這些產品也都密集在最近幾個月發布,今年7月的阿里雲上海峰會上,阿里巴巴集團副總裁戚肖寧發布了高性能RISC-V架構處理器玄鐵910。
玄鐵910集成16個核心,主頻2.5GHz,採用12級亂序流水線,最大支持8MB二級緩存,搭載AI增強的向量計算引擎,可用在人工智慧加速器、網絡通信和自動駕駛等領域。
現場公布的數據顯示,玄鐵910較業界主流晶片性能提高40%,較標準指令性能高出20%。
8月,平頭哥又發布SoC晶片平台「無劍」,無劍平台由SoC架構、處理器、各類IP、作業系統、軟體驅動和開發工具等模塊構成,面向AIoT提供的集晶片架構、基礎軟體、算法與開發工具於一體的整體解決方案。
根據官方的說法,無劍能夠幫助晶片設計企業將設計成本降低50%,設計周期壓縮50%。
需要指出,7月發布的玄鐵910是基礎單元處理器IP,無劍是晶片設計平台,所以含光800是阿里的首款AI晶片。
這也意味著,阿里的C-Sky系列、玄鐵系列AIoT終端晶片IP,一站式晶片設計平台無劍,以及最新發布的雲端AI晶片構建了阿里端雲一體的晶片生態,平頭哥端雲一體全棧晶片產品家族雛形已現。
更值得關注的是,端側的7款C-Sky系列嵌入式CPU IP核已得到大規模量產驗證,授權客戶超100家,累計銷售超十億顆,應用於機器視覺、工業控制、車載終端、移動通信和信息安全等領域。
RISC-V架構的玄鐵處理器以及無劍SoC平台也已有客戶,包括人工智慧企業雲天勵飛、老牌晶片公司炬芯科技等。
含光800也已經實現了大規模應用,應用於阿里巴巴集團內多個場景,例如視頻圖像識別/分類/搜索、城市大腦等,未來還可應用於醫療影像、自動駕駛等領域。
同時,阿里雲作為全球前三的雲服務提供商,含光的能力將通過雲服務對外提供。
張建鋒現場宣布,基於含光800的AI雲服務也正式上線。
另外,在生態建設方面,平頭哥還將成立晶片開放社區。
不僅如此,平頭哥還在研發用於阿里雲神龍伺服器的SoC專用晶片。
未來,阿里還將進一步完善產品形態,推出包括雲端AI訓練晶片和終端AI推理晶片,滿足更多場景的算力需。
自研AI晶片的終極目的是什麼?
阿里從雲端到終端AI晶片的布局已經明確,並且也已經有不少客戶,這是否意味未來阿里不僅不需要購買晶片,還可能替代其它晶片公司?答案是否定的。
在這一輪的AI浪潮中,我們看到無論是國外的谷歌、Amazon、Facebook還是國內的阿里,這些強於軟體的科技巨頭們都在積極研發AI晶片。
至於其中的原因,Cadence執行長、華登國際創始人陳立武此前接受雷鋒網採訪時表示:「科技巨頭積極布局AI是因為他們不希望落後,因為他們都有大量的數據。
當然,科技公司開始做晶片並不意味著傳統的晶片廠商會被取代,科技公司希望在一些應用上用自主研發的晶片來提升效率。
」
事實也確實如此,就拿阿里來說,其業務橫跨電商、金融、物流、雲計算、大數據、全球化等場景,用戶規模龐大,對算力的需求更高,挑戰也更大。
傳統CPU、GPU和FPGA難以滿足所有需求,並且面臨成本和功耗挑戰。
定製化的ASIC晶片能夠實現更高的性能同時兼具更低功耗,因此科技巨頭們基於對自身業務和需求的了解,紛紛開始自主研發AI晶片,希望在保持領先性的同時,降低整體計算成本。
從全球範圍看,谷歌TPU是全球科技企業從軟變硬的代表。
此次含光800的發布及商用,表明阿里的優勢也不再只是在軟體領域,在AI晶片的加持下,未來阿里的優勢也將是軟硬一體的優勢。
為了實現這一目標,阿里幾年前就開始了布局。
2017年雲棲大會上,阿里成立達摩院,這是阿里在全球多點設立的科研機構,立足基礎科學、顛覆性技術和應用技術的研究。
達摩院由全球建設的自主研究中心、高校聯合實驗室,全球開放研究計劃三大部分組成,涵蓋量子計算、機器學習、基礎算法、網絡安全、視覺計算、自然語言處理、下一代人機互動、晶片技術、傳感器技術、嵌入式系統等,涵蓋機器智能、智聯網、金融科技等多個產業領域。
平頭哥得到達摩院和阿里雲的軟實力加持,基於達摩院的算法能力,才能打破了算法和硬體之間的鴻溝,基於阿里雲飛天雲平台的優勢,得以快速形成了端雲一體晶片生態。
如今,阿里自主研發晶片的目標也已經部分達成。
根據云棲大會的現場演示,在城市大腦中實時處理杭州主城區交通視頻,需要40顆傳統GPU,延時為300ms,使用含光800僅需4顆,延時降至150ms。
拍立淘商品庫每天新增10億商品圖片,使用傳統GPU算力識別需要1小時,使用含光800後可縮減至5分鐘。
顯然,平頭哥的目的並非是賣晶片,平頭哥還會延續了母體阿里巴巴集團「讓天下沒有難做生意」的願景,開闢了全新的商業模式,即平頭哥模式(以無劍平台為核心),為企業提供普惠算力。
另據介紹,針對AIoT市場有強應用驅動和場景碎片化等特點,晶片公司按照傳統的方式設計晶片很難去適應未來的需求,平頭哥希望通過端雲一體晶片生態為各行業提供普惠算力。
張建鋒說:「在全球晶片領域,阿里巴巴是一個新人,玄鐵和含光800是平頭哥的萬里長征第一步,我們還有很長的路要走。
」
小結
作為科技巨頭,阿里此前更加擅長軟體,並且擁有大量的數據。
在正在到來的以數據為中心的時代,能夠藉助AI更快挖掘出數據的價值將成為科技巨頭們繼續保持領先優勢的關鍵之一。
因此,無論是國外還是國內,科技巨頭們紛紛開始投入巨大的資源進入技術、資金、人才都非常密集的晶片產業,阿里首款AI晶片的推出,意味著阿里已經不再只擅長軟體,在其廣泛的應用場景需求的支撐下,阿里將能夠實現硬體的快速疊代的完善,在雲端和終端進一步釋放出軟硬結合的優勢。
One more thing,關於平頭哥產品的命名,你怎麼看?
數學與 AI「融通」 ,徐宗本院士進行超強「遷移學習」
張鈸院士:人工智慧的魅力就是它永遠在路上 | CCAI 2019
Facebook 自然語言處理新突破:新模型能力趕超人類 & 超難 NLP 新基準
巴赫塗鴉創作者 Anna Huang 現身上海,傾情講解「音樂生成」兩大算法
張建鋒:重磅發布全球最高性能AI推理晶片含光800
通信世界網消息(CWW)9月25日上午,「2019雲棲大會」在杭州開幕。本屆雲棲大會以開發者為主角,以數字經濟為核心議題,將對前沿科技、技術產品、產業應用等領域將進行系列的重磅發布。阿里巴巴集團...