如此多「首次」,這個中國芯強在哪裡?解析麒麟980

文章推薦指數: 80 %
投票人數:10人

在今年的IFA也就是柏林國際電子消費品展覽會上,華為的執行長余承東發布了華為今年的全新處理器—麒麟980。

這款產品的發布,使得華為創造了多個世界第一,包括首次採用TSMC 7nm工藝,首次採用全新Cortex-A76架構、加強的全新AI引擎以及更強大的GPU等。

縱觀華為之前在移動SoC上的努力,可以看出華為是一個堅持自研晶片並不斷追趕世界先進水平的公司。

從麒麟家族的第一款產品也就是首次採用ARM Cortex-A72處理器架構以及TSMC 16nm FF工藝的麒麟950開始,到隨後採用Cortex-A73架構的麒麟960,以及目前大熱的首先加入AI專用核心的麒麟970,華為在移動SoC上的步伐可謂一步一步、異常堅定。

不過由於各種各樣的原因,麒麟處理器在之前和高通驍龍家族的比拼中,往往是起個大早、趕個晚集,性能或者功能總有不夠令人滿意的地方。

那麼,本期的麒麟980又會帶來怎樣的優勢,是否會全面超越目前大熱的驍龍845呢?

全新的麒麟,全新的核心

為了清晰地展示新處理器的相關信息,本文先從麒麟980的規格表開始。

從規格上來看,相比之前的麒麟970和麒麟960,麒麟980可謂全面升級,基本上處理器的每一個部分都有了明顯的進步,包括CPU、GPU、存儲、ISP、基帶、編解碼能力、NPU等。

由於麒麟980在規格上做出了全面升級,因此本文將對每個部分進行詳細解讀。

工藝:首次使用7nm製造

麒麟980處理器是全球首個官方發布使用7nm的移動SoC產品,其工藝來源是台積電。

作為全球最大的晶片代工企業,台積電在7nm工藝上的積極布局終於得到了回報。

一直以來,在7nm的工藝路線選擇上,業內存在不同的看法。

由於晶片尺寸越來越小,傳統的沉浸式光刻技術已經逐漸不能滿足14nm以下的晶片生產需求了,因此有關7nm工藝的實現方式,台積電和業內另一家巨頭三星產生了分歧——三星選擇了全新的EUV光刻技術來生產自己的7nm產品,而台積電則堅持使用「最後的」沉浸式光刻,這需要結合多重曝光等技術來滿足更小尺寸線寬電晶體的生產。

▲AMSL EUV光刻機,本代台積電沒有採用EUV工藝。

據悉下一代麒麟990產品將使用EUV的7nm工藝製造。

相較之下,採用全新EUV工藝的優勢在於可能會帶來更好的電晶體形態、更出色的性能和更優異的尺寸表線等,但是缺點在於進度較慢且不可控因素太多;採用成熟的沉浸式光刻生產7nm世代的產品優勢在於技術相對成熟,風險較小且量產時間有保證,缺點則是成本可能不好控制、晶片性能和尺寸等方面可能比EUV工藝略差。

不過,台積電最終的產品性能顯示,即使使用傳統的193nm沉浸式光刻技術研發出來的7nm工藝性能表現依舊非常不錯,相比上代10nm工藝,台積電7nm工藝可以在電晶體數量相同的情況下將晶片面積縮小37%,或者在電路複雜度相同情況下降低40%的功耗。

相比之前的16nm而言,7nm工藝更是在可比條件下降低了60%的功耗、提升了30%的性能或者減少了70%的晶片面積。

▲麒麟980的電晶體數量為69億,已經是初代麒麟920的3.5倍之多。

台積電也評估,即使採用EUV技術獲得更好的性能表現,7nm EUV對比目前的7nm DUV,性能在可比條件下也最多只能提升10%、面積繼續縮減10%~20%,但是量產時間可能推遲一年。

綜合考慮下,台積電目前的7nm工藝將是業內性價比最好的選擇——畢竟2億美元一台的EUV光刻機不僅價格昂貴,還數量稀少,排隊購買尚需時日,且不要說迅速量產了。

因此,在新工藝的加持下,華為在新的麒麟處理器中可以塞入更多的電晶體,並帶來更好的功耗控制和更出色的性能表現,最終實現處理器性能上的飛躍。

CPU架構:全新八核心+DynamIQ+全新架構

有關麒麟980處理器架構的內容有兩點值得探尋:一方面是採用了全新的Cortex-A76搭配Cortex-A55,另一方面是麒麟980首次採用的三分組的處理器結構,實際上擁有八個物理核心。

這種設計是繼聯發科採用類似的三分組結構之後,其他廠商首次採用類似的設計。

不過雖然表面上都是三組,但實際上內里大有不同。

全新的Cortex-A76+ Cortex-A55大放異彩

先來看麒麟980的所採用的CPU架構。

華為在之前的麒麟處理器中採用的架構就比較激進,基本上會跟隨ARM最新發布的架構,本次也不例外。

麒麟980是全球首個採用Cortex-A76架構的移動SoC產品,CPU搭配方案為Cortex-A76+Cortex-A55,是ARM最新的處理器架構搭配方案。

▲麒麟980在架構設計上的獨特之處就是8核心的「2+2+4」方案

從架構角度來看,Cortex-A76採用了超標量亂序結構,擁有4個解碼前端(4發射),8個執行埠,總流水線級數13級,執行延遲為11級,總體規模巨大,堪稱一款「筆記本電腦」級別的高性能處理器架構,同時還具有高效能。

就通用IPC而言,相比Cortex-A75,ARM承諾Cortex-A76的整數效能提升25%,ASIMD/浮點效能提升35%,再加上90%的內存效能提升,因此最終可以在GeekBench4中提升25%,JavaScript性能增加35%,在AI計算中,Cortex-A76的雙ASMID 128位計算單元使得半精度矩陣乘法的性能達到之前產品的3.9倍。

總的來說,Cortex-A76是一款「大尺寸、高性能」的處理器產品,其尺度和規模決定了只有7nm乃至更先進的工藝才能很好地「鎮壓」這款處理器核心。

相比「巨大」的Cortex-A76,Cortex-A55則是以小巧和極端的能耗比著稱。

Cortex-A55是一個2發射、順序執行、8級流水線的CPU核心。

這一點和其前代Cortex-A53類似——實際上Cortex-A55的設計很大程度上來源於對Cortex-A53的深度優化。

其改進主要在於分支預測、數據讀取和寫入(AGU)以及緩存部分,在執行部分改進較少。

性能方面,由於架構大幅度改進,ARM宣稱Cortex-A55的內存性能相比Cortex-A53提高了1倍,因此帶來了整數18%、浮點38%、渲染14%、綜合21%的性能增加。

由於新的架構加持,因此麒麟980的處理器性能相比之前的麒麟970大幅度躍升(麒麟970採用的是較老的Cortex-A73+ Cortex-A53的方案,華為實際上跳過了Cortex-A75架構)。

根據華為的數據,在Dhrystone這樣的專注於CPU核心計算能力的測試中,麒麟980的性能超出麒麟970大約75%,能耗比則比麒麟970提高了58%。

▲在採用全新架構後,麒麟980的性能相比麒麟970提升75%,能耗比提升58%。


DynamIQ加持:創新的三分組方案兼顧性能和功耗

除了本身架構方面的優勢外,麒麟980的另一個優勢在於使用了特殊的三分組核心方案來構成八核心處理器,這一點在之前的處理器設計中是非常少見的。

具體到產品上,麒麟980的核心分為高性能、高能效比、低功耗三組。

其中高性能組採用的是2個運行頻率在2.6GHz的Cortex-A75處理器核心,考慮到目前的7nm工藝尚處於初代,因此不太可能達到ARM推薦的3GHz水平,但2.6GHz的處理器頻率也已經不低了。

高能效比核心依舊是Cortex-A76架構,但是頻率降低到了1.92GHz,這應該是一個非常好的性能、功耗銜接點,很可能在大部分中量或者日常任務場景下這兩個核心會被優先啟用。

最後則是低功耗核心,由四個Cortex-A55架構的小核心組成,運行頻率為1.8GHz。

根據華為的描述,這樣的設計能夠有效提升實際應用中的能效比。

從技術角度來看,三分組設計的CPU核心在之前並非沒有出現過,聯發科的10核心處理器曾經使用過三分組設計方案,但是由於內部調度和總線設計的技術難題,實際效果表現並不是特別出色。

華為之所以能夠在麒麟980上使用類似的設計並對其抱有充足的信心,主要還是由於放棄了傳統的big.LITTLE總線,使用了全新的DynamIQ調度方式。

所謂DynamIQ,是指ARM在2013年開始研發的一種不同處理器核心靈活調度的技術,這項技術的核心要點有三個部分:

首先,核心集群規模擴大、電源控制更為靈活。

DynamIQ中,每個集群中最多可以有8個內核(bL技術最多允許4個),允許32個集群存在,內核數量最多可達256個。

另外,ARM允許處理器實現自由搭配,一個集群中處理器並不限制架構和型號,且電壓和頻率上的控制就變得更為寬鬆自由,能夠更為自由的匹配不同目的、類型的核心。

其次,在集群搭配方面,在新的DynamIQ中,ARM認為雖然未來的處理器還是以八核心配置為主,但是八個核心都可以放在一個集群內,可以實現Cortex-A76和Cortex-A55的任意搭配組合,比如類似麒麟980的「2+2+4」,或者傳統的「4+4」,甚至極端的「1+7」等都非常適合。

另外,由於電源管理升級,DynamIQ技術下不同控制域的核心可以實現不同的頻率、電壓方案,也可以單獨關閉。

第三,緩存的改進也是DynamIQ亮點之一。

在DynamIQ上,ARM將L1和L2緩存全部都設定為了核心專用緩存,這樣可以使得L2緩存的延遲降低50%以上,集群中的所有核心使用可選的L3緩存,容量可選1MB、2MB或者4MB。

新的L3緩存為16路設計,技術上屬於偽獨占設計,不過ARM表示L3緩存完全獨立,幾乎所有的L3內容都不會出現在L1和L2緩存中。

總的來說,DynamIQ不再僅僅是一套軟體和總線的組合,它成為了一套複雜的控制體系,包括DynamIQ Shared Unit單元用於控制和管理整個處理器核心的電壓、頻率;DSU作為集群內CPU和系統其餘部分的通訊中心,實現數據傳輸控制的功能;此外包含了異步橋、探聽過濾期、L3緩存、Bus I/F、電源管理器、ACP(加速一致性埠)和外圍設備I/F等部件,實現電源管理、核心同步、處理器和外部設備之間的銜接等功能。

由於DynamIQ的引入,麒麟980在處理器核心使用效率方面相比之前的big.LITTLE技術應該有巨大的提升,包括單獨關閉、啟動任意核心、不再整組啟動核心而是根據需要單獨啟動等,獨立控制每個核心的電壓和頻率等,這些設計都會帶來能耗比的提升。

另外,在緩存方面,相比前代產品獨立L1緩存、共享L2緩存的設計,麒麟980的L1、L2緩存都已經變成核心獨享。

兩個高頻、兩個中等頻率的Cortex-A76核心每個都擁有512KB的L2緩存,每個Cortex-A55核心獨占128KB L2緩存,這帶來了延遲的大幅度降低,所有核心都共用4MB L3緩存。

L3緩存通過分區能夠實現效能的最大化,甚至某分區可以為單獨的任務和內核分配,或者由作業系統動態管理等。

這些都是之前的處理器不可能做到的。

除了DynamIQ之外,華為表示自己採用了一種全新的「靈活調度」機制,但是目前尚未有任何可公布的信息,因此是否華為採用了更多獨創的技術,只有等待華為進一步的說明或者更深度的測試才能揭示。

GPU架構:首次使用10核心Mali G76

麒麟系列處理器的GPU性能一直不算同類產品中頂尖的,因此也影響了華為手機在遊戲上的表現,為此華為還推出了名為「GPU Turbo」的技術來加強手機遊戲性能。

不過,在麒麟980上,華為在GPU上表現頗為激進,10核心的Mali G76的使用,讓GPU不再是處理器的短板。

雖然表面上看來,麒麟980中的10核心Mali G76 GPU要比上代麒麟970採用的12核心Mali G72核心數量要少一些,不過作為Mali家族最新的GPU架構,Mali G76在有很多獨到之處的,其中最重要的特點就是Mali G76的每個EU單元中擁有8組FMA和ADD/SF流水線,相比上代Mali G71/G72的4組直接翻倍,這樣帶來的效果就是EU單元的計算資源翻倍,但是核心面積並沒有由於計算資源翻倍而大幅度增加,根據ARM的數據,新EU面積只增加了22%,相比性能來說,是完全可以接受的。

除了架構本身的變化外,Mali G76在細節方面存在一些更新,比如GPU一次填充的線程粒度,英偉達一直使用的32粒度,也就是一個wave填充32個數據,從Fermi開始就是如此。

AMD一直使用64寬度,一個wave CU單元能夠填充64個數據。

在移動GPU上,ARM一直都在使用4寬度的填充粒度,這實際上也是一個效率、功耗和面積平衡的問題,粒度越小則GPU使用效率越高,因為多個命令可以被拆分為小的粒度同時執行,反之如果是大量較小需求的命令則可能不太好拼接成一個任務,但是粒度越小則要求更多控制和邏輯單元,比如單個32寬度的線程只需要1個控制單元,而8個4寬度的線程就需要8個控制單元。

控制單元也需要占據面積、耗費電晶體和功耗,因此在這裡如何平衡就顯得非常重要。

ARM之前使用的是4粒度,面向的是早期計算要求較低、數據較少的時代,但是隨著移動計算的增強,更多計算任務的要求,4粒度顯得有些過於細碎了。

雖然ARM之前認為線程粒度越小可能會更好的降低線程發散並減少GPU內部停滯的可能性,但時過境遷,如果運算中有大量的分支代碼,那麼由於線程發散而限制的計算單元就沒有什麼價值了。

因此,在Mali G76上,ARM改用了更寬的8粒度填充,這使得ARM減少了所需要的控制和邏輯單元,使得邏輯單元對比EU單元的比例大幅度下降。

根據ARM數據,ALU吞吐量翻倍的情況下,EU模塊的規模相比之前4寬度時只增加了28%。

由於EU模塊計算規模翻倍,相應的紋理和像素單元、緩存等都有一定的增加。

其中紋理、ALU和像素單元的比例和之前一致,緩存的容量和通道數量都翻倍。

性能方面,由於各種資源翻倍,因此實際性能也應該是類似的比例。

數據顯示,Mali G76的性能達到Mali G72的2倍,只需要132%的晶片面積,能耗比相應提升了50%。

具體到產品來看,麒麟980的GPU部分相比麒麟970而言,由於架構革新,因此其計算資源相對擴充了66%,這還不算新架構計算效能的改善。

頻率方面,麒麟980的GPU頻率為720MHz,在7nm工藝下這個數據並不算高,要知道前代麒麟970的GPU頻率都高達747MHz。

華為數據顯示,麒麟980的GPU性能相比麒麟970提升了46%,能耗比大幅度提升了178%。

▲麒麟980相比麒麟970,在GPU性能上的提升。

內存、ISP和NPU:大幅度提升

除了CPU和GPU信息外,華為在發布會上還詳細介紹了其他子系統的性能提升。

在內存部分,麒麟980改用了全新的LPDDR4X內存控制器,支持2133MHz的內存,帶寬增加了13%,並且延遲大幅度降低。

華為數據顯示,麒麟980的延遲為138ns,驍龍845則為176ns。

不過這個數據可能需要進一步查證,因為之前的麒麟970也是138ns,甚至三星Exynos 9810更低,只有78ns。

▲麒麟980是全球首個支持LPDDR4X 2133的處理器。


▲華為給出的麒麟980相關遊戲性能對比和功耗對比

在攝影方面,麒麟980採用了新的ISP單元,新單元的圖像處理吞吐量提升了46%,支持更高解析度的攝像頭,另外一個重要的改進在於加入了HDR10的圖像處理流水線。

此外,另一個重要改善是加入了多通道降噪技術,基於時間幀進行畫面降噪處理,效果更為出色一些。

在視頻編碼方面,視頻捕捉延遲降低了33%。

▲麒麟980的雙ISP性能大幅度提升

人工智慧是華為之前在麒麟970發布會上的重點,在麒麟980上華為也加強了這一部分。

麒麟980採用了新的雙核NPU,相比前代產品性能翻倍。

華為表示,新的處理器的推斷能力為4500次/每分鐘,之前的產品為2030次,對比驍龍845則是2371次,蘋果A11則為1458次,麒麟980的性能是最出色的。

▲華為在發布會上也和驍龍845做了有關遊戲性能的對比

全球最快4G,5G箭在弦上

除了上述性能方面的內容之外,在通訊能力上,麒麟980也非常有實力。

麒麟980採用的是目前全球領先的支持CAT.21的4G基帶,其能夠支持4×4 MIMO、1.4Gbps下載速率以及2×2 MIMO、200Mbps的上傳速度,同時支持5CA、256QAM、3x載波聚合。

它在基帶技術參數上幾乎無出其右者,只有等待5G時代才能超越這款基帶的速度了。

▲麒麟980的基帶技術規格堪稱全球最強,因此華為宣稱其為4.5G LTE基帶。

無獨有偶,華為在5G時代的布局也已經逐漸展現。

麒麟980可以通過外掛華為Balong 5000基帶實現對5G網絡的支持,不過華為目前尚未發布有關Balong 5000基帶的參數和細節,只不過宣稱會在明年推出相關產品。

從產品和市場角度考慮,第一代5G產品多有試水和搶占市場的意味,實際5G全面鋪開應該還需要一段時間,據業內猜測華為極有可能在明年推出集成了5G基帶的麒麟晶片,名稱有可能被稱為麒麟990。

▲全球首個支持CAT. 21的基帶,下載速度最高1.4Gbps。

▲華為發布了全球首個5G基帶,並展示了麒麟980和Balong 5000的外掛方案。

在Wi-Fi方面,麒麟980這次放棄了傳統的博通方案,轉而採用了自研的Hi1103 Wi-Fi模塊,支持802.11ac標準、2×2 MIMO和160MHz頻寬,速度高達1732Mbps。

GPS定位方面華為也為麒麟980加入了L1+L5雙頻GPS定位,L5頻段下定位精度可提升10倍。

華為登頂世界的一小步?

從華為近幾年的產品發展脈絡來看,在移動SoC的發展上華為也經歷了多年的艱辛和布局。

從早期的「祖傳」海思K3V2,由於新品發布較慢、研發進度趕不上等問題,被多代華為手機使用,更是有用戶吐槽堅決不買「K3V2」。

好在隨後進入麒麟時代後,從一炮而紅的麒麟950,到首個AI移動SoC麒麟970,再到今天的麒麟980,可以說華為終於走過了一個完整的晶片研發企業需要經歷的漫長積累成長期,成為了全球頂尖的移動SoC企業。

從發布的消息來看,麒麟980所代表的CPU、GPU、通訊、ISP等各個方面的技術,無一不是全球領先水平,除了視頻編解碼方面沒有支持4K@60Hz的小遺憾外,其餘各個方面已經和高通站在一個水平線上,甚至部分性能還有超越。

那麼,人們不禁要問:華為的下一步是什麼?繼續使用ARM公版架構還是接受指令及授權,重新研發處理器?GPU方面又應該如何操作呢?這些答案目前無人可以回答,但是華為應該早有布局。

在產業發展的道路上,向前走不回頭,繼續一步步努力,繼續向著領航者的方向大步前進。


請為這篇文章評分?


相關文章 

2015年手機處理器指南(中)

2014年底高通(Qualcomm)推出了驍龍810,三星則是發布了Exynos 7420,前者應用了20SoC工藝、帶來了先進的載波聚合技術,後者則是率先應用了FinFET(Fin Field...

驍龍821、麒麟960、MTK、三星 新CPU誰最強?

在當下,手機的成本變得越來越透明,越來越多的用戶開始最求性價比,用省的錢買最好的機子。而每台新機的CPU都被那些最求性價比的用戶高度重視。就在今年下半年,即將又會有一大批全新高性能CPU來襲,今...