剛剛,阿里平頭哥首款AI晶片發布!46倍於英偉達P4,刷新全球紀錄

文章推薦指數: 80 %
投票人數:10人

阿里第一顆晶片誕生!

剛剛,雲棲大會現場,阿里巴巴集團CTO、達摩院院長張建鋒向全場展示了含光800——阿里第一款AI晶片。



為了這款晶片,阿里一年前放下狠話,但誰也沒想到一年後即亮相:不僅完成流片,還已在阿里雲上正式上線。

這也是阿里平頭哥成立以來首款硬體產品,是阿里20年發展史上首款自主研發、流片量產的晶片。

在晶片行業時代變革轉關之際,阿里好風憑藉力、快速取得突破,掌握下一階段擂台主動權,意義和價值,或許將遠超晶片本身。

不過發布現場,張建鋒更想強調的是敬畏之心。

他說:「在全球晶片領域,阿里巴巴是一個新人,玄鐵和含光800是平頭哥的萬里長征第一步,我們還有很長的路要走。



含光800究竟如何?

含光之名,依然沿襲平頭哥傳統,取自神兵寶劍。

「含光」本是上古三大神劍之一,含而不露,光而不耀,正如含光晶片作用方式——無形卻強勁的算力。

具體來說,這是一款雲端AI晶片,主打推理,重點應用於視覺場景。

性能方面,打破現有AI晶片記錄,性能及能效比全球第一。

晶片製程12nm,電晶體數量高達170億個。



在業界標準的ResNet-50測試中,含光800推理性能達到78563 IPS,比目前業界最好的AI晶片性能高4倍。

能效比500 IPS/W,是第二名的3.3倍。



以數據橫向對比,含光800展現性能,是英偉達最新T415倍,是應用最廣的英偉達P4的46倍——超過去年設計之初吹下的「牛」。

目前,含光800已經率先在阿里內部多個業務場景開啟大規模應用。

從視頻圖像識別、分類、搜索,到城市大腦等,未來還可應用於醫療影像、自動駕駛等領域。

大會現場,張建鋒展示了這款晶片的強大性能。

每天新增10億商品圖片的拍立淘商品庫,使用含光800識別效率可提升12倍,時間從傳統通用GPU的1小時縮減至5分鐘。



還有城市大腦。

在城市大腦中實時處理杭州主城區交通視頻,需要40顆傳統GPU,延時為300ms,使用含光800僅需4顆,延時降至150ms。



阿里方面稱,含光800會首先在阿里內部場景業務服役,同時含光800的AI雲服務也正式上線,通過阿里雲對外提供AI算力,但不會直接以晶片的形式對外售賣。



此前,阿里平頭哥連戰連捷,過去兩個月已經發布了無劍SoC平台和玄鐵處理器IP,「讓天下沒有難造的晶片」,幫助企業降低晶片設計門檻。

現在,作為首款硬體,也是最硬核產品,含光800依然承載平頭哥之志,希望通過阿里雲AI雲服務,讓企業隨時隨地可以享受高性能計算。

而且也意味著阿里平頭哥成立一年來,走過了軟體架構(處理器IP、SoC平台)到硬體流片的完整流程。

這是阿里造芯,標誌性的「交作業」時刻。



阿里造芯這一年

阿里布局AI晶片,最早曝光於2018年4月。

其後9月雲棲大會,阿里宣布成立平頭哥,並且先將「狠話」放下,正在打造一款NPU,架構設計上,性能成果就要比業內最好的AI處理器強大40倍。

此言一出,語驚四座。

然而一年之後的現在——成績單時刻——阿里平頭哥確實沒有食言。

含光800,性能46倍於P4,甚至比最新一代英偉達T4,也有15倍領先。

雖然過程並非完全順風順水,但過去一年,「含光」團隊不僅完成了從無到有的跨越,更是超越了所有人的預期。



整個過程中,含光800團隊在軟硬體設計上都做了大量工作,例如做架構創新,軟體編譯器、框架、工具鏈等,後期還針對INT8數據類型進行了大量優化。

含光800晶片負責人驕暘透露,這款晶片採用自研架構,針對深度學習中使用的大量權重參數和張量數據,在支持稀疏壓縮與量化處理的基礎上,通過獨特設計的數據訪存與流水線處理技術,大大減低了I/O需求和數據的搬移。

晶片同時深度優化了卷積、矩陣乘、向量計算和各種激活函數,通過高有效的硬體資源調度和全並行的數據流處理,把AI運算的性能和能效雙雙推向極致。

另外,還集成了達摩院算法。

針對CNN及視覺類算法深度優化計算、存儲密度,可實現大網絡模型在一顆NPU上完成計算。



更難能可貴的是,平頭哥團隊攻克了一系列挑戰。

例如如何兼顧性能、良率、功耗等。

平頭哥在軟硬體上充分考慮了這些問題,用最短的時間完成了晶片的設計、流片整個過程,7個月完成前端設計,之後僅了3個月就成功流片。

驕暘感慨,從傳統造芯角度來看,幾乎是一個不可能完成的任務。

但最終,阿里AI晶片團隊,還是創下紀錄,完成挑戰,把不可能變為可能。

這其中,自然有「007」們日日夜夜的苦功,不過也不容忽視乘風起勢的大趨勢作用。

正所謂時來天地同協力,AI時代的專芯專用需求,阿里業務場景加持優勢,都是不得不說的核心原因。



NPU:晶片的iPhone時刻

首先,AI時代的專芯專用需求。

顧名思義,NPU——神經網絡處理器就是專門處理深度神經網絡算法的晶片,而深度神經網絡算法,核心是模仿生物神經網絡結構特點,並且最基本特徵就是模仿大腦神經元之間傳遞模式,並對輸入的信息進行快速處理。

然而傳統通用處理器基於馮諾依曼結構,其存儲和運算處理相互分離,如果處理深度神經網絡,需要大量讀寫運行操作,會受到帶寬限制,效率較低。

因此以含光800為代表的神經網絡晶片,根據神經網絡推理運算特徵,會設計特定的硬體神經元、高速連接的存儲結構以及專用指令集,對內存和計算單元實現高效組織管理,實現單條指令完成多個操作,提高計算效率和內存訪問效率。



簡而言之,專芯專用,效率更高、成本更低,相應效益也會更好。

而且另一方面,因為需求明確,應用場景有針對性,相比打造CPU和GPU,打造AI晶片的門檻要低很多。

於是整個行業都在來到一個「iPhone時刻」——軟體重新定義硬體,場景需求重新定義晶片。

然後過程中最好還能與應用的業務場景結合,不斷驗證、反饋,疊代,最後在達到目標效果後流片、完成物理實現。

所以當今之勢,不僅AI造芯初創公司形成小高潮,而且網際網路巨頭也紛紛跨界變硬,啟動自主AI晶片打造。

但想不想造、有沒有能力造,最後造的結果如何……完全是好幾個層次,完全是綜合實力的比拼。

這也就是為什麼,阿里的業務場景優勢,會給平頭哥首款AI晶片帶來加速,也是阿里手握新時代晶片競爭「天命」的原因。



何以一年造出AI芯?

實際上,雖然速度快、成果驚人,但阿里AI晶片並非完全「從0開始」。

平頭哥創立一年,不過達摩院和阿里各大業務,已在AI算法和軟體方面積累很長時間。

含光800團隊透露,基於阿里達摩院的算法以及阿里巴巴集團硬體基礎設施多年技術沉澱,是含光800重構晶片軟硬體技術棧的秘訣所在。

由於AI晶片的差異化設計主要體現在硬體架構和軟體算法上,二者需要高度適配才能發揮晶片的最大價值。

算法方面,阿里巴巴達摩院機器智能實驗室過去兩年構建了完整的算法體系,涵蓋語音智能、語言技術、機器視覺、決策智能等方向,並且取得多個世界領先水平的成果。



硬體方面,阿里巴巴此前已在伺服器、FPGA以及存儲等領域擁有多年經驗,平頭哥團隊也在體系結構、編譯技術等領域擁有深厚的技術儲備。

基於這些能力,平頭哥完成了算法和硬體之間鴻溝的快速突破。

在算法能力之上,自研晶片架構,並且設計了完整軟體棧。

而且如此設計理念,效果也立竿見影。

例如功耗是AI晶片行業通病,但平頭哥自研架構可大幅減少對內存的訪問,在保證極致性能的情況下,能把晶片功耗降到最低水平。

另外,新入局也有新入局的優勢。

帶隊打造含光800的驕暘感慨,半導體巨頭搞AI晶片,會有既有開發者生態的包袱,但阿里平頭哥團隊目標專一,就是要實現最強算力,把硬體能力完全釋放,以構建更大的生態。

過程中也無時不刻展現著阿里業務場景優勢、以及組織凝聚力。

而平頭哥在架構設計之初,業務場景同事就從需求和經驗層面給出了全面反饋,直接幫助釐清了需求。

然後算法加持和驗證疊代階段,達摩院和業務場景也不厭其煩幫助測試、反饋,提交疊代,共同完成了流片前的最後保障。

所以雖然阿里造芯,專門成立了平頭哥半導體,但「含光800」從無到有,不光是一個人、一支團隊在戰鬥。

如果你問阿里AI造芯的優勢究竟有哪些?



除了有「生死看淡不服就干」的決心,真金白銀的投入,業內全球資深人才的招攬……

平頭哥首席科學家、阿里巴巴高級研究員元尊,會將具體優勢歸結為「ABCDE」。

  • A:Algorithm,算法,阿里本身的技術儲備和AI實力,在算法方面有世界領先的積累。

  • B:Big Data,大數據,龐大的生態場景和覆蓋方方面面的業務,在數據質和量方面都有優勢。

  • C:Computing,安全穩定的計算力,阿里雲的市場龍頭和領先地位,就已能說明一切。

  • D:Domain knowledge,專業領域知識,阿里本身並非只是一家一業的公司,而是幾十家公司的集合體、經濟體,有各種各樣的全面應用場景,對於各項最新技術和產品,有最天然的應用基礎。

  • E:Ecosystem,生態。

    比起傳統晶片半導體公司,阿里生態涵蓋之廣泛、能力之多元和應用前景,都是綜合實力的體現。

元尊認為,擁有「ABCDE」的阿里,比光有C的其他晶片公司,自然更容易更快速站上AI晶片C位。

而且這種「ABCDE」,一方面幫助造芯,另一方面還幫助用芯。



阿里AI晶片商業模式

在阿里內部,因為豐富的場景需求和業務體量,對高性能AI算力的需求已非一日。

電商場景中,拍立淘等新興購物方式涉及的圖片搜索,需要AI晶片。

還有文娛場景,優酷視頻修復、分析,也需要AI實現。

還有阿里正在大規模落地推進的城市大腦等,如各類車輛進行檢測、跟蹤、特徵提取、屬性檢測等,也都離不開更強算力加持。

未來,在醫療和自動駕駛等重要垂直領域,更是空間廣闊、商業前景潛力十足。

單自主晶片自用,就已效益顯著。

更何況阿里雲的地位和實力,也能讓AI算力通過阿里雲賦能更多領域、更多企業。

所以此次含光800晶片選擇雲服務的商業模式,也在情理之中。

阿里方面,則更樂於強調首款AI晶片的商業模式背後,一以貫之的普惠性——平頭哥創辦的核心理念。

今年早先推出的無劍SoC平台和玄鐵處理器IP,都選擇了直接開放授權,幫助企業降低晶片設計門檻。

而含光800的普惠性,則體現在通過阿里雲AI雲服務的形式,讓企業隨時隨地可以享受高性能計算服務。



平頭哥下一步

在杭州雲棲大會期間,也談到了阿里晶片的下一步。

隨著含光800發布,平頭哥已集齊了全棧晶片家族:

  • 基礎單元處理器IP,C-Sky系列、玄鐵系列,為AIoT終端晶片提供高性價比IP;
  • 一站式晶片設計平台,無劍SoC平台集成CPU、GPU、NPU等,降低晶片設計門檻;
  • AI晶片,含光800通過AI雲服務為AI場景提供高性能算力。

這三大產品系列,初步完成了平頭哥端雲一體的晶片生態。

而接下來,平頭哥產品形態,重點將是雲端AI訓練晶片、端上推理晶片,以及用於阿里雲神龍伺服器的SoC專用晶片,以滿足更多場景的算力需求。

此外,平頭哥晶片初步軟硬體閉環實現,阿里巴巴在晶片、雲和AI三大業務之間的協同關係,也雛形初現。

從時代趨勢而言,三者原本就是三位一體。

AI算法逐漸集成到晶片,集成算法的專用晶片能為雲服務提供了更強的性能,而雲計算本身則加速了AI應用的大規模落地。



過去十年,阿里集中推進、展現成果的是AI和雲計算。

現在,平頭哥補齊晶片一環,阿里在計算版圖中的鐵三角形成。

不過中國科技網際網路巨頭,自然還有野心更大的宏偉藍圖——行業生態和開發者生態。

此前,玄鐵910發布,阿里也明確解釋過,平頭哥目標就是打造AIoT時代的基礎設施平台,延續從阿里巴巴B2B淘寶支付寶,到阿里雲和菜鳥等延續承襲的阿里之道。

在此次雲棲大會,基於RISC-V架構的玄鐵處理器、以及無劍SoC平台也有開發者案例——如人工智慧獨角獸雲天勵飛、老牌晶片商炬芯科技,以及可重構計算晶片領軍企業清微智能,都將現場亮相。

當然,既然AI晶片是一次軟硬體一體化的完全重構,那麼在軟體棧和模型框架方面,阿里必然也不會袖手旁觀。

最明顯的信號,莫過於重磅引入的Caffe之父賈揚清。



One more thing:含光

最後,阿里首款AI晶片,取名依然寓寄深遠。

「含光」之名,來自《列子·湯問》,是上古名劍,也是商天子三劍之首。

「視不可見,運之不知其所觸,泯然無際,經物而物不覺。

這把劍隱隱發光,如光如影如風,快到看不見,無形、無處不在,無往不利。

平頭哥團隊解釋說,這是含光800團隊內部投票的結果。

既希望傳達該款NPU的能力,也展現平頭哥首款硬體初入晶片領域的心態——在英特爾英偉達等巨頭面前,還是「年輕人」,造芯重器,心懷敬畏。

不過,含光800面世,依然是阿里和平頭哥歷史性的重要一步。

阿里剛剛度過了20周歲生日,這一個20年完成了「讓天下沒有難做的生意」。

接下來20年,能實現「讓天下沒有難造的晶片」的大膽夢想嗎?

不知道。

眼下只知道含光初立,一劍光寒十四州,邁出萬里長征第一步。

水木然兩本新書

《價值規律》+《世界在變軟》

正式上市!

兩本書很便宜,但字字如金

請點擊下方了解更多四個字購買


請為這篇文章評分?


相關文章