即將搭載人工智慧晶片的華為Mate10，究竟會為業界帶來什麼？

2021-01-25

文章推薦指數： 80 %

投票人數：10人

隨著華為旗艦機型Mate 10即將發布，科技媒體紛紛爆料，華為Mate10將首次在智慧型手機歷史上，搭載一顆人工智慧晶片。

其實早在華為半年業績發布會上，華為余承東就透露，預計將在今年秋季推出人工智慧晶片，而根據目前最新的消息，這顆人工智慧晶片極有可能就是搭載在麒麟970之中的寒武紀晶片。

當然，目前Mate 10的最終規格還沒發布，具體還要期待10月16日的慕尼黑髮布會，上述消息僅是我們的合理猜測。

如果屬實的話，意味著Mate 10將成為全球首款具備人工智慧晶片的機型，這將會為業界帶來怎樣的衝擊？畢竟智慧型手機自賈伯斯後，再無革命性的範式進步。

這無疑是一個有趣而又重要的問題，本文接下來將看看寒武紀晶片的前世今生，實際上這顆晶片更為精確地說，是一款深度網絡加速晶片，其本身並無夢幻的AI技能，而其加速功能，又究竟能在何種場景上帶來逆天的變化？

寒武紀晶片是何方神聖？

根據目前最新消息，麒麟970極有可能通過IP授權的方式搭載寒武紀人工智慧晶片，本文這裡先解釋一下IP授權這一概念。

目前無論是高通驍龍還是海思麒麟，都不是嚴格意義上的純CPU晶片，而是一塊SoC（System-on-chip）晶片。

所謂的SoC即晶片上集成了若干不同的功能模塊。

以高通驍龍801為例，801上除了四核Krait 400 CPU外，還集成了Adreno 330 GPU、Snapdragon Camera相機圖像信號處理器、藍牙、GPS、WIFI以及視頻音頻編解碼等模塊，上面的每一個這些模塊通常都是SoC廠商上游的技術提供商通過IP（intellectual property，智慧財產權）提供授權，當然這樣做的好處是技術提供商可專注於IP方案設計，而晶片封裝工作可交由高通等SoC商負責，這樣雙方揚長避短，共同加速晶片的上市及更新疊代速度。

麒麟970上搭載的寒武紀IP，主要用於深度神經網絡（DNN）中的複雜計算，而深度神經網絡正是目前人工智慧技術的半壁江山，這樣一來麒麟970將成為全球首款具備人工智慧處理能力的SoC晶片。

當然目前寒武紀這家公司對於大眾來說還十分陌生，這裡先對寒武紀進行簡單的介紹。

寒武紀科技（Cambricon）是中科院計算所孵化的一家獨角獸公司，2016年推出的寒武紀1A處理器（Cambricon-1A）是世界首款商用深度學習專用處理器，面向智慧型手機、安防監控、可穿戴設備、無人機和智能駕駛等各類終端設備，最近獲得了包括阿里在內的1億美元A輪融資。

這家成立於2016年的AI晶片公司以火箭般的速度發展，據寒武紀稱，其在2016年已經實現了盈利並獲得1億元量級的營收。

而華為與寒武紀的合作，很可能是因為華為與中科院計算所長久以來不菲的合作關係，早在2011年，華為就與中科院計算所成立了「中科院計算所-華為聯合實驗室」。

當然打鐵還得自身硬，寒武紀科技創始人陳天石教授是人工智慧硬體加速的早期倡導者，連谷歌在其萬眾矚目的人工智慧晶片TPU的論文之中，全文共引用了寒武紀團隊成員發表的6篇論文，在全球人工智慧公司中，能享受到谷歌如此待遇恐怕實屬鳳毛麟角。

而對於華為而言，在產品中具備這樣一個中國完全自主智慧財產權的人工智慧晶片IP，或許更加是一項營銷利器。

AI晶片將為手機帶來何種計算能力？

大家還記得去年火爆的俄羅斯修圖應用Prisma嗎？

Prisma使用了深度神經網絡來獲取著名繪畫大師和主要流派的藝術風格，然後對用戶的照片進行智能風格轉化，一張普通的照片通過Prisma能變成具備令人驚嘆藝術效果的作品，下面是一組示例：

從技術原理上說，Prisma使用了GAN對抗生成網絡，是一款典型的基於深度網絡的人工智慧應用。

但用過Prisma的人都知道其實際體驗並不是非常友好，在最初的時候，用戶首先要上傳待修的圖片到Prisma伺服器上，經過一段時間才能夠下載修好的作品。

但隨著Prisma的火爆，用戶雲端等待時間越來越長，國內用戶更是要忍受連接到俄羅斯伺服器的爆高網絡延遲。

儘管後來Prisma實現了本地計算，但其速度仍然比較緩慢，部分風格濾鏡需要計算10秒以上才能完成圖片轉換，當然相比此前只能依賴雲端計算，其體驗已經有所進步，但與美圖等主流修圖應用的修圖速度仍然無法相比。

Prisma上述這些體驗的不完美，其主要原因是深度神經網絡的執行需要大量的計算。

一般而言，建立一款如Prisma的人工智慧應用，需要通過訓練（training）和推斷（inference）兩個過程：訓練是通過大量的數據輸入，或採取增強學習等非監督學習方法，訓練出一個神經網絡模型，如對於Prisma來說，在訓練過程中神經網絡學習了大量的繪畫風格。

一旦訓練完成，即可使用由訓練確定的權值進行計算，如Prisma中通過訓練好的網絡改變圖像風格，這個應用的過程被稱為推斷（inference）。

由於深度神經網絡本身的特徵，在推斷過程中往往需要大量的權重計算，這在伺服器端通常沒什麼問題，但一旦放在手機等設備上就有點捉襟見肘了。

如Prisma的手機本地端計算，雖然通過大量優化顯著降低了模型的複雜度（當然這樣做的直接後果就是效果變差了），但對於手機CPU來說仍然負荷很大。

這樣一來問題就擺出來了，如果要讓手機掌握更多的人工智慧應用，需要讓手機具備強大的計算能力做inference，否則用戶體驗難以保障，但摩爾定律畢竟放在哪，CPU本身目前難以具備如此的計算能力，這就是深度神經網絡在手機等各種嵌入式設備上的應用難題。

這時候，深度網絡加速晶片應運而生了。

深度網絡加速晶片是怎麼一回事？在深度神經網絡的應用過程中，人們發現實際上複雜的神經網絡架構中計算量通常都集中在少量的計算類型上，比如矩陣運算，如果設計一款專門優化的硬體晶片從事這些繁重的計算，正如當年CPU對複雜的圖像運算力不從心，催生了GPU的出現，豈不是把問題給解決了？

業界確實是這樣做的，如谷歌自家推出的深度網絡加速晶片TPU，定義了十幾個專門為神經網絡推理而設計的高級指令，比如矩陣運算、計算激活函數、讀取/寫入內存等，相比用CPU進行相同的計算，TPU的功耗效率（performance/Watt，每耗電1瓦的性能）比CPU高出80倍，下圖列出的是谷歌TPU部分核心的高級指令。

這時候，大家是不是想起了比特幣礦機中的ASIC（專用集成電路）呢？沒錯，深度網絡加速晶片也是一款ASIC，只不過比特幣的ASIC只能進行哈希運算，深度網絡加速晶片則定位於承載若干種深度網絡的常用計算。

而華為Mate 10即將搭配的寒武紀晶片，也正是這樣的一款深度網絡加速晶片。

由於目前寒武紀晶片尚未正式公布，其真實性能情況無從知曉，但從寒武紀科技自家去年在計算機架構頂級會議ISCA上發布的論文《Cambricon: An Instruction Set Architecture for Neural Networks》中，我們就能夠管中窺豹。

論文中提及了寒武紀（Cambricon）是一款面向於目前神經網絡技術，集成了常量運算、向量運算、矩陣運算、邏輯運算、數據轉換以及控制指令等功能的深度神經網絡加速晶片架構（…..we propose a novel domain-specific Instruction Set Architecture (ISA) for NN accelerators, called Cambricon, which is a load-store architecture that integrates scalar, vector, matrix, logical, data transfer, and control instructions, based on a comprehensive analysis of existing NN techniques.），其主要定位是解決深度神經網絡中推斷（inference）所涉及的複雜計算問題。

到此為止，華為Mate 10上的麒麟970晶片，所搭載的人工智慧模塊就相當清晰了：與其說它是一塊人工智慧晶片，更準確地說是一塊深度網絡加速晶片，主要用於加速人工智慧中深度神經網絡所帶來的複雜計算。

若真如此，華為粉絲們的熱切期待恐怕會失望了，麒麟970本身不會帶來任何夢幻的智能，而是賦予了手機本身處理深度神經網絡中前所未有的計算能力，讓如Prisma等需要跑在深度神經網絡上的應用能夠有革命性的體驗。

智慧型手機邁向智慧手機：場景為王

麒麟970上的深度網絡加速模塊，如果要為業界帶來衝擊的話，我認為首先是讓大家深入思考，在手機等移動設備中加入深度網絡硬體加速，是否是一個未來的趨勢？消費者是否願意為這塊晶片買單？當然這個問題是很顯淺的，其核心在於是否能為消費者帶來有價值的應用場景。

深度神經網絡作為人工智慧目前的半壁江山，其在智能語音、計算機視覺中有廣泛的應用，前者典型的應用如Siri等智能語音助手，以及基於此目前火爆得不能再火的智能音箱；而後者在消費端莫過於各種類似Prisma的修圖應用。

通過深度神經網絡，能實現圖像編輯的智能化。

比如以往需要大量用戶手工操作的瘦臉、美顏、瘦腰、拉長腿，通過深度神經網絡的加持，用戶可以如使用Prisma的體驗一般，智能化搞定全部。

當然圖像智能編輯是目前計算機視覺中的熱門應用，未來期待還有更多夢幻的應用出現。

對於很有可能搭載寒武紀的Mate 10，這裡大膽猜測一句，其廣告語會是「智能攝影大師」嗎（笑）？

圖像識別是另外一個應用點，比如，用戶在手機中標準了一張人臉後（比如同事A），通過圖像識別，手機能把圖庫中所有含有同事A的照片都篩選出來，這個運算在當前的智慧型手機上會非常緩慢，但有了深度網絡加速晶片後變得可能。

語音識別是深度網絡的另外一個核心應用，目前我們都知道，Siri、出門問問等語音助手都需要在聯網的狀態下才能使用，原因是語音識別的inference放在了雲端處理，而同樣通過深度網絡加速晶片，或許能實現手機本底端的識別，即在無網絡的情況下，依然能使用智能語音助手實現有限度的應用，比如讓助手找出通訊錄中符合條件的某個人。

當然，站在市場營銷層面，有很多實際上並不需要深度網絡加速晶片去加速的應用，都可以通過混淆概念的方式納入消費者的想像之中，比如拿起手機亮屏、在漆黑的環境中自動打開手電等。

然而我們客觀地說，目前智慧型手機上需要使用到深度網絡加速晶片去加速的應用，並不能算很多，其中真正能算是有效需求的更加寥寥無幾。

在安防攝像頭、無人機、自動駕駛汽車中融合人工智慧專用晶片無疑是未來的清晰趨勢，畢竟如無人駕駛汽車中，我們不能指望使用雲端的方式去做inference，畢竟網絡一旦出現問題，難道放任汽車撞樹上？但智慧型手機這個充分競爭的領域，任何功能的革新都需要經過市場的長期考驗，而其中的關鍵還是在於場景。

而這次極有可能搭載了深度網絡加速晶片的Mate 10，將會為我們帶來什麼尚未想像到的場景？或許這點，才是我們真正需要熱切期待的。

雷鋒網按：本文作者胡嘉琪，雷鋒網專欄投稿文章。