AI性能超越驍龍855 Plus及麒麟810!展銳虎賁T710是如何做到的?

文章推薦指數: 80 %
投票人數:10人

2019年8月27日,紫光展銳在北京召開媒體溝通會,在介紹了此前發布的虎賁T310的一些成果之後,正式發布了新一代的移動平台虎賁T618。

與此同時,展銳還正式公布了在AI Benchmark排行榜上排名第一的手機晶片——虎賁T710。

虎賁T310從流片到手機量產僅用了3.5個月

今年4月9日,展銳發布了全球首款基於Arm DynamIQ架構、面向智慧型手機的四核LTE晶片平台——虎賁T310,首次在四核晶片中採用了Arm Cortex-A75大核,提供了超越普通八核的性能,同時保持了四核的低功耗優勢。

隨後這款晶片也受到了不少手機品牌廠商的青睞。

作為首發虎賁T310的手機品牌廠商,海信在當天活動的現場也展示了基於虎賁T310的手機——海信F30S。

同時海信通信公司首席科學家隋立濤也在現場分享了,海信與展銳在F30S項目上的合作。

隋立濤指出,千元機市場競爭激烈,提升產業化競爭力成為關鍵。

展銳虎賁T310首次千元機四核處理器當中引入了Cortex-A75大核心,兼顧優異的運算性能和優秀的續航能力,提升了千元機產品用戶體驗,助力了市場升級。

這也是海信看好虎賁T310的關鍵,因此海信與展銳進行Alpha級合作。

▲海信通信公司首席科學家隋立濤

「海信是今年2月底拿到的T310的樣片,晶片本身的量產時間計劃是7月15日。

但是當海信與展銳確定Alpha級合作後,根據市場需求提出了6月15日手機量產的挑戰性目標,這意味著從拿到樣片到手機量產只有3個半月的時間。

全新平台、展銳首次全網通設計,難度無疑是非常大的。

而且這期間還要完成晶片調優、系統穩定、入網認證、運營商認證、批量上市等艱巨任務。

但是雙方研發團隊在F30S項目上無縫配合、快速響應、集中攻關,最終順利的完成了目標。

」隋立濤高興的表示:「這個開發進度比原計劃提前了1個月,並且海信 F30S 手機自上市後表現也非常穩定,這意味著新展銳在質量方面確實進步很大。

「如果放在以往,一款新的展銳手機晶片從流片到終端手機的量產,經常要比預計的時間要delay一段時間。

」紫光展銳市場高級副總裁周晨透露:「虎賁T310之所以能夠如此快速的推向市場,主要是自去年以來,展銳內部建立了完整的集成產品開發流程體系(IPD),以及CMMI質量管理體系(這是原先用於軟體質量的體系,現狀把它引入到整個晶片和解決方案的研發中)。

▲紫光展銳市場高級副總裁周晨

此外,為了提升產品的品質,展銳去年底還啟動了「火鳳凰項目」,即對過去的產品關鍵架構代碼全部重構。

「這就好比,原來我們的打的地基只能蓋三四層樓的樓房,現在我們想要把樓蓋的更高,如果繼續用原來的地基,那可能就會有倒塌的危險,所以必須要推倒重來,重新打地基。

」周晨形象的比喻到。

周晨坦言:「之前展銳的一些產品確實存在一些質量上的問題,所以這也迫使我們下決心去推倒重來。

因為只有這樣做,才有長期的質量大幅度提升。

而我們將高質量融入展銳的血液中,這也為我們未來能夠走的更高更遠打下了堅實的基礎。

虎賁T618:影像性能大幅升級

作為比虎賁T310更高一級的全新手機平台,雖然虎賁T618沿用了12nm工藝、Arm DynamIQ架構,不過其核心數提高到了八核,採用了兩個主頻2.0GHz的Cortex-A75大核,以及六個主頻1.8GHz的Cortex-A55小核。

根據展銳公布的數據顯示,虎賁T618的單核性能相比虎賁T310提高了7%(畢竟虎賁T310也有一個Cortex-A75大核),多核性能則大幅提升了98%。

而在GPU方面,虎賁T618採用了性能更強的Arm Mali G52 MP2。

展銳公布的數據也顯示,虎賁T618的圖形處理能力相比虎賁T310(GPU是Imagination PowerVR G8xxx系列)提升了350%。

不過,CPU和GPU性能方面的提升並不是虎賁T618的最大亮點。

在展銳看來,隨著智慧型手機的發展到今天,同質化已經非常的嚴重,但是用戶的需求仍在發展,特別是在「智能化」方面。

而智能化需要有足夠強的信息獲取能力,所以在手機上Sensor越來越多,特別是攝像頭越來越多,現在三攝已經比較常見了,還有四攝和五攝,這個探索目前看起來是合理的。

而這也對處理器的快速及時的處理器能力提出了更高的要求。

一方面,需要兼顧對於多種不同類型的攝像頭Sensor的支持,比如廣角、超廣角、微距、TOF、結構光之類的各種組合。

同時,為了保證用戶的體驗,還需要做到零時延拍照。

另外,在預覽的同時,在多個照相機同時工作的時候,是不是需要重新拼合?攝像頭切換的時候,能否平滑過渡?這些都會影響用戶體貼。

對此,展銳虎賁T618在提升CPU和GPU性能的同時,大幅加強了拍照方面的能力,引入了一套全新的影像引擎Vivimagic 5.0,這是展銳自研的第五代的ISP整體解決方案。

包含一個全新的3核的ISP,全新的圖像算法升級的版本,還有創新的AI調試工具,可以為直接客戶或者最終用戶都能產生價值。

Vivimagic 5.0的引入,使得虎賁T618可以支持四攝,包括結構光、TOF等各種Sensor,還可支持各種各樣出圖的方式。

從硬體角度來講,三核的ISP,加上Vision DSP和相關硬體檢測單元和降噪單元,已經是非常高的配置。

另外,對於目前多攝方案上存在的固有問題,比如超廣角鏡頭的幾何畸變問題,廣角鏡頭存在數碼變焦圖像不清晰的問題,長焦鏡頭在變焦時容易出現卡頓、亮度和色彩不一致、視角抖動等問題,三顆攝像頭同時工作和切換時還會有延時等問題。

展銳虎賁T618配備了三個獨立的ISP,也就是說,三個攝像頭Sensor可以分別有一個獨立的ISP對接,在拍照時可以三個同時工作,無需硬體切換,可以實現超廣角、廣角和長焦鏡頭三路圖像數據可實現無延時切換,無縫變焦;利用3A同步,還實現了Sensor切換時亮度和顏色的無跳變;利用標定技術,消除了視角抖動。

展銳還利用新一代的多攝圖像融合技術大幅提升了拍攝遠距離物體的畫面清晰度。

周晨表示,「這裡面的核心難點在於算法,要匹配好,大家知道圖像融合有難度,因為FOV不同,圖片上的點很難完全匹配的,這完全看算法,這是算法團隊在這個領域已經做了很多的工作,這是我們的能力和進展。

此外,展銳還利用超廣角鏡頭去畸變算法,對超廣角鏡頭拍攝的圖像進行畸變較正,使得圖像更真實,還原度更高;利用動態增強技術,在高動態場景下,保留高亮區域細節,提升按處亮度、對比度及顏色復原。

在利用AI技術提升拍照性能方面,展銳也做了很多的優化。

比如在夜景拍攝方面,展銳利用AI自動識別夜景場景,通過3DNR技術,可實現優秀的夜景拍攝。

在AI人臉檢測、AI人臉解鎖、AI人臉美顏、AI單攝人像虛化等方面,對於體驗進行了提升。

另外值得一提的是,展銳還首次加入了AI 4D追焦的能力,即在快速移動場景下,準確檢測並跟蹤拍攝目標,實現持續追蹤對焦,拍攝圖像更清晰。

除了三核的ISP之外,虎賁T618還配備了專用的Vision DSP,進一步強化了對於圖像的處理器能力,不僅可以減少拍照延遲,降低功耗,同時還能夠提供約0.5TOPS的AI算力,可以更快更好的處理人像分割、智能修圖、場景檢測等任務。

此外,Vision DSP還支持AR和SLAM。

周晨表示:「這顆Vision DSP在AI能力上,基本上相當於4個大核CPU的四倍,效率很高。

我們會將這顆Vision DSP的能力開放給我們的客戶,比如海信在攝像上會持續的增加新的能力,有了Vision DSP和我們的支持,就會變為可能。

另外,要想獲得最佳的成像效果,攝像頭調試通常是手機開發過程中耗時最長的一項工作,經常是手機馬上要上市了還在調試,甚至產品上市之後,還在繼續調試,推出升級版。

這也意味著,一旦攝像頭調試效果不佳,那麼會直接影響產品的上市時間。

而這項工作也給手機廠商帶來了較高的成本。

過去手機廠商調試攝像頭,通常會拿著樣機,拍一系列的場景,不同的物體、亮度、環境、背景,拍一套回去然後再進行參數調整,參數調整一輪之後,再繼續出去拍一套。

顯然,這種方式非常的麻煩,效率並不高。

而且,這個調較的結果會因為不同的工程師、不同的時間點、不同的場景,會使得調試可能出現反覆,「經常是按下葫蘆起了瓢」。

為了幫助客戶大幅提升圖像調試效率,展銳首度向客戶提供了PITT工具套件。

周晨表示:「我們在給客戶提供足夠好的質量的同時,也會幫助客戶調圖,快速調出好的圖,這次我們還提供了PITT工具套件,這個套件首次把AI的能力用了進去,客戶只需要一次性把一套場景圖拍回來,剩下的事情只需通過調試工具,自動把原始的圖反覆的放進去,以後做相應的調試。

它的優勢在於:1、完全的硬體仿真,可以實時查看調整參數後的效果;2、RAW數據可以重複用。

圖片什麼地方調的不好,調整參數再疊代進來的時候,不會因為樣張本身輸入的變化,導致對新調試參數額外的影響;3、自適應調試。

工程師想要什麼效果,可以那一張最佳的圖作為參照,PITT工具可針對目標圖片自動生成一套最接近這個效果的最優參數。

顯然,這將極大的縮短疊代的時間,提升效率。

根據展銳公布的數據顯示,利用PITT工具套件可以使得調試周期從8輪下降到3輪(每輪2人一周時間),效率大幅提升了63%。


虎賁T710:最強手機AI晶片

早在今年7月底的時候,蘇黎世聯邦理工學院AI Benchmark公布了最新的主流AI晶片的測試榜單,令人意外的是,紫光展銳尚未發布的虎賁T710赫然躍居榜首,總分達到了28097分,遠遠超過了高通新發布的驍龍855 plus(高出了逾3544分)和華為麒麟810。


根據AI-Benchmark的數據顯示,展銳虎賁T710基於四顆主頻2GHz的Cortex-A75核心+四顆1.8GHz的Cortex-A55核心,GPU未知,在AI方面則是集成了獨立的NPU內核,支持運行FP16、INT8、INT4等多種數據位寬的AI算法。

那麼虎賁T710的AI性能為何如此之強呢?關鍵還是在於其首次搭載了展銳自研的異構雙核NPU。

從手機SoC對於AI運算的演進來看,從最開始的利用CPU/GPU來進行AI計算,到後面同時利用CPU/GPU/DSP來進行AI計算,DSP的AI計算效率要遠高於CPU/GPU。

2017年,華為的麒麟970和蘋果A11首次在手機SoC當中加入了專用的人工智慧計算內核——單核的NPU。

2018年,華為的麒麟980和蘋果的A12又都開始集成了雙核的NPU內核,主要是大小核搭配的雙核NPU,但是它還是同構的,小核是大核的「裁減版」,小核的頻率低一點或者性能低一點,當然功耗也低一些,類似現在的CPU的大小核組合。

不過周晨認為,在目前AI領域,同構雙核NPU並不太合適。

為什麼這麼說呢?

從AI近幾年的快速發展來看,目前在圖像類(比如人臉識別)的應用上,已經有了相對成熟的神經網絡模型,可以採用8bit定點量化的方式大幅的減少計算代價。

但是,在其他一些應用領域,神經網絡模型仍在快速的演進,比如語音對精度的要求更高,仍沒有確定下來什麼樣的精度模式最適合,因此需要浮點能力,需要採用更為靈活的量化方式(INT4、FP16)。

除此之外,還有還有很多類似的應用。

而目前的同構的雙核NPU,更多針對的是已經相對成熟的神經網絡模型來進行固化,以實現更高效的計算。

但是,在靈活性上就要相對較差。

對此,展銳選擇了在NPU架構上進行創新,首次採用了異構雙核NPU架構。

其中一個NPU是針對已經相對成熟的圖像類的神經網絡,採用了固化的方式來做更高效的實現。

而另一個NPU則採用了完全不同的架構,更適合於浮點運算,在靈活性和兼容性上更高,可以適應更多不同類型的應用場景。

也就是說,這個異構雙核NPU會根據不同的模型選擇最適合的NPU內核來進行計算,可以實現「擇善而用、動態調度、高效協同」。

那麼展銳T710的異構雙核NPU到底有多強呢?其實前面的AI Benchmark的跑分就已經說明了一定的問題。

不過,在此次媒體溝通會上,展銳公布的更多的相關數據。

根據展銳公布的數據顯示,虎賁T710集成的異構雙核NPU的算力達到了4TOPS,能效比 ≥ 2.5TOPS/W。

從展銳公布的SRCNN去模糊測試數據來看,展銳虎賁T710的SRCNN FP16表現與競品相近,但是在SRCNN INT8的表現上要比其他三個競品要更為出色。

而在VGG-19超分測試數據上,虎賁T710的VGG-19 FPF16表現優於競品一和競品二,略低於競品三,但是在VGG-19 INT8的表現上要遠高於其他競品。

為了釋放虎賁T710在AI方面的能力,其不僅完整的支持目前最主流的Android NN以及後續版本,同時還針對開發者提供了展銳自研的API——UNIAI,以及自研的SDK,如果客戶想做原生應用,可以基於UNIAI研發,可以非常高效的跑,不用考慮兼容性的問題。

此外,虎賁T710還支持多種AI訓練框架, 如TensorFlow、TensorFlow Lite、Caffe等。

支持多種AI模型量化方式,包括INT4、INT8、INT16和FP16等。

其他配置方面,虎賁T710基於12nm工藝,4顆2.0GHz的Arm Cortex-A75及4顆1.8GHz的Arm Cortex-A55,搭載主頻800MHz 的IMG PowerVR GM 9446 圖形處理器。

除了CPU、GPU、異構雙核NPU之外,虎賁T710包含了ISP、VDSP等處理單元,整合了4K@30fps編解碼,802.11AC,BT 5.0等功能。

需要指出的是,虎賁T710目前只是一款AP,並沒有集成4G基帶,因為其定位就是「高性能邊緣計算平台」。

據展銳透露,「T710已經被一些重要的客戶採用,研發相應的高性能邊緣計算產品平台,它的能力完完全全可以支撐這樣的計算,比如針對醫療行業的應用,在儀器上拍完圖片,圖片傳輸到T710,T710快速給出診斷結果,此類行業應用會非常多。

」另外,後續展銳會推出虎賁T710+5G基帶的產品。

編輯:芯智訊-浪客劍


請為這篇文章評分?


相關文章 

主打影像力和AI:展銳虎賁系再添兩員大將

C114訊8月28日消息(水易)自去年9月紫光展銳正式確立「虎賁」與「春藤」兩大產品線,至今快有一年時間,特別是近半年時間,在全新管理團隊的帶領下,繼今年2月發布首款5G基帶晶片春藤510,4月...