Arm在2018為業界又帶來了哪些驚喜?

文章推薦指數: 80 %
投票人數:10人

在踏入網際網路時代,尤其是移動網際網路時代,能夠得到時代寵幸的公司並不多,其中,Arm算是一個。

而近期,Arm又針對當下應用潮流對於高性能處理器的需求,推出了更高性能的產品序列,包括移動領域應用的Cortex-A76,視覺影像應用的GPU——Mali-G76,以及針對超高清視頻處理器解決方案的Mali-V76。

更高效率的Cortex-A76

新一代Cortex-A76相對於前代(Cortex-A75)而言,同樣採用了於2017年對外發布的DynamIQ技術前提下,還採用了先進的7nm製程工藝,實現了35%的性能提升、40%的能效提升和4倍的機器學習運算能力。

Arm第二次應用到Cortex架構CPU中的DynamIQ技術,其實是Arm於2017年發布的在big.LITTLE基礎上演進的晶片架構,主要針對現在應用火熱的人工智慧及機器學習方面的能力進行了優化,因而也被稱為DynamIQ big.LITTLE。

相對於先前架構,DynamIQ主要有三方面的突出能力:

1)DynamIQ允許在單一計算集群上進行大小核配置,能夠實現1+3、1+7、3+5等組態(目前最多可以支持配置8核),因而可配置性提升得以進一步提升;

2)DynamIQ可以對每一個處理器進行獨立的頻率控制以及開、關、休眠狀態的控制,能夠實現高效、無縫地在不同任務間切換合適的處理器;

3)DynamIQ還對內存子系統進行了重新設計,可以對內存進行更細顆粒度的管理,實現更快的數據讀取和全新的節能特性。

也因此,應用DynamIQ的CPU更適用於能耗更高、需要快速響應的AI應用。

同時,此次Cortex-A76在延用前代v8.2架構及DynamIQ技術外,其特點是採用全新的微處理器架構,在微處理器架構方面的改進包括提升每周期處理指令數量和更深度的內存層級平行處理。

Arm針對圖像處理應用的GPU開發路線

隨著AR/VR、高清手游等對圖像質量及圖像渲染能力有高需求的應用領域的興起,專用於圖像處理的GPU也開始受到關注。

而Mali系列則是Arm針對這一應用領域開發的GPU。

Arm針對GPU的開發路線可以分為三類,包括針對成本敏感型的市場的超高效GPU系列UTGARD(出於對成本的考慮,我們可能會在性能以及提供的功能方面做一些折中去優化成本)、擁有最佳的性價比的主流GPU產品系列MIDGARD,以及擁有最高性能的高性能GPU系列BIFROST。

此次推出的Mali-G76則是針對高性能應用的GPU,而作為這一代產品的第三個疊代產品,採用Bifrost繪圖架構及7nm製造工藝,同樣在性能上擁有可觀的性能提升。

與上一代Mali-G72相比,Mali-G76有30%性能密度、30%的能源效率及2.7倍的機器學習能力的提升。

高能效在帶來峰值時的性能高和功耗低同時,也意味著更長的電池續航時間。

例如一款手機其他配置相同,採用G76GPU玩遊戲的時長要高於採用G72GPU的手機。

Mali-V76:8K60幀的解碼性能

Arm是如何設計視頻處理器的呢?

Arm區域市場經理王田指出,「首先,我們先指定一個具有給定性能級別的核心,並針對多個編解碼視頻標準進行優化,分析需要支持的視頻標準,並確定哪些功能可以用硬體來實現,哪些功能最好放在軟體中實現。

通過這種方式可以達到更好的軟、硬體協同的效果。

然後,我們有一套硬體模塊來加速指定的通用功能,並通過路徑和硬體IP無縫協作控制這些功能,執行指定編解碼功能。

運行固件時,我們有一套專用的微處理器,提供特定的軟體控制程序,通過固件提供安卓或者Linux的驅動,這些都是基於像OpenMAX的集成層,並根據未來安卓系統的需求可以更新到安卓多媒體的框架。

Mali-V76系統解決方案

Mali-V76系統解決方案的硬體支持固定的功能模塊,例如運動估計、運動補償、比特流處理、區塊濾波器、DMA、MMU引擎等。

除了運動估計,Mali-V76所有固定硬體加速模塊的吞吐量提升了一倍,同時還增加了第二組的AXI總線,能達到更高的帶寬需求。

在軟體方面,Mali-V76除了支持264、265、VP9等主流視頻標準,還支持10 bit 264編解碼,支持中國廣播電視標準(例如AVS、AVS Plus)。

而在軟體框架上,Mali-V76支持內存的分配、多核之間任務調度以及更好的功耗方面的優化。

Mali-V76性能表現

在性能方面,相比於上一代Mali-V61產品相比,Mali-V76支持8K60幀的視頻解碼,速度也是Mali-V61的兩倍;在4K 120幀解碼性能節點,在提供同樣解碼能力的同時,有40%的面積節省;在編碼質量上,同樣的內容和條件下,有25%的編碼質量提升。

Mali-V76在600 GHz運行四核的時,能夠提供每秒4K 12幀的吞吐量。

例如在電視牆的應用中,Mali-V76最高可以提供16路(4×4)1080P 60幀解碼性能,或者提供4路4K 60幀的解碼性能。

這就為更高畫質VR/AR應用體驗帶來了可能。

Project Trillium機器學習平台

人工智慧的興起及智能設備爆髮式增長帶來數據量的急劇增長,而這就帶來了本地和雲端的兩種數據存儲方式,本地存儲空間有限,而雲端存儲又帶來了成本、安全和速度的問題,因而帶來了邊緣的概念。

而邊緣進行機器學習發展到現在已經遠不是一款CPU,甚至不只是CPU自身的問題,而是一個生態問題。

Project Trillium則是Arm為了實現在邊緣的人工智慧和機器學習工作負載於2018年3月推出的開發的平台。

Project Trillium能夠為開發者提供什麼呢?

Project Trillium機器學習平台最上層是現在主流的機器學習的大的體系。

Arm機器學習事業部技術總監 Ian Bratt稱,Arm絕對不是要和機器學習大的體系去競爭的,相反我們能夠幫助從這些系統的機器學習工作負載能夠在邊緣成功部署。

中間層是由Arm提供的豐富的開源軟體工具和資料庫,所有的這些軟體工具和資料庫的核心和基礎是Arm的演繹推理引擎——Arm NN。

最底層則是Arm硬體處理器方面產品,包括Arm自身的Cortex系列的CPU、Mali系列GPU產品以及Arm專門針對機器學習所推出的專用的晶片。

Arm機器學習專用晶片三大聚焦點

Ian Bratt還介紹了設計機器學習專用晶片的的三大設計特點。

第一,卷積處理效率的提升。

由於現在的機器學習需要人工處理大量卷積類的工作,因而要提高整體ML的處理效率,卷積處理效率的提升是非常關鍵的一環。

第二,總體晶片功耗的降低。

在晶片上進行數據傳輸所消耗的電量遠大於處理每個比特的數據本身所消耗的電量,因此要降低總體晶片功耗需要實現更加有效的數據移動。

第三,晶片架構的可編程性。

人工智慧領域本身是一個全新的領域,神經網絡技術仍在不斷地變化中,因而晶片架構本身的可編程性也尤為重要。

小結

Arm此次發布的三款產品更新主要仍然是針對移動領域的應用產品,而更高的性能、更低的功耗以及更強大的機器學習能力是此次產品更新的主要能力提升,同時也是應對市場上各類產品對性能、智能等需要作出的又一次突破。

除了產品更新之外,我們也看到Arm除了原有的生態之外,還在著力擴展自己在人工智慧方面的生態。

雖然巨頭廠商不斷追逐,帶有「智能」頭銜的產品也在疊代更新,而其實真正的智能之路其實才剛剛開始。


請為這篇文章評分?


相關文章