易評:超算「神威」是中國高性能處理器的核反擊

文章推薦指數: 80 %
投票人數:10人

圖為「神威·太湖之光」運算系統機倉

圖為「神威·太湖之光」運算系統機倉內部

文/ 網易科技 盧鑫

本周早些時候,《全球超算500強》正式公布了2016年上半年排行名單。

原本以為會獲得「7連冠」的天河2號,竟意外被趕超,且還是被另一國產超算給擊敗……如此的意料之外頓時讓中外媒體和小編們又一次沸騰。

實際上,小編大概在去年的這個時候也寫過一篇有關國產超算的《易評》,不過內容主要是質疑「天河2」連續五次蟬聯《全球超算500強》之意義所在。

超級計算機也許是電腦運算的極致——該類機器每秒能夠處理的運算量普通PC要花數年時間才能完成。

超級計算機的性能一直以來都呈現指數級的增長,其分析海量數據的能力之強在本世紀初簡直不可想像。

下面通過此圖集來回顧過去15年全球最強大的超級計算機,以及不斷被刷新的性能記錄。

1. 2001年6月至2002年6月:ASCI White

ASCI White超級計算機被勞倫斯利弗莫爾國家實驗室用來幫助維護美國的核武器庫存——通過進行測試來確保彈頭的安全,以及模擬爆炸。

該款IBM機器含有8192個IBM Power3處理器核心和160TB的磁碟存儲空間,理論上其最高浮點運算速度為每秒12.288萬億次。

ASCI White採用AIX OS作業系統,使用SP Switch連接器來傳輸數據。

2. 2002年6月至2004年11月:Earth-Simulator

NEC的Earth-Simulator曾一度連續數年霸占最強超級計算機的寶座,其速度要遠遠快於同期的競爭產品。

它的任務只是運行一個虛擬地球,它被日本政府用來模擬自然災難和制定應對措施。

該機器使用5120個定製的1GHz處理器核心,擁有10TB的內存、640TB的磁碟存儲空間以及1.5PB的補充存儲。

Earth-Simulator的最高浮點運算速度為每秒40.96萬億次,它運行Super-UX OS作業系統,依靠多級連接器。

3. 2004年11月至2008年6月:Blue Gene L

IBM的Blue Gene/L系統起源於一個有關利用超級計算機研究蛋白質在人體內的形成過程及幫助形成新的疾病治療方式的項目。

Blue Gene/L相當強大,即便只是半成版本,也能夠在2004年11月成為全球最快速的計算機。

為勞倫斯利弗莫爾國家實驗室採用的Blue Gene/L版本進行過數次升級,最強大的版本帶有21.2992萬個700MHz PowerPC處理器核心以及7.3728萬GB(約74TB)內存,最高浮點運算速度達到每秒596.378萬億次,功耗為2329kW。

它使用CNK/SLES 9 OS作業系統和專用連接器。

4. 2008年6月至2009年11月:Roadrunner

Roadrunner採用PlayStation 3處理器的高級版本,跟ASCI White一樣,它也是用來測試美國的核武器庫。

最初,Roadrunner遍布於美國能源部的洛斯阿拉莫斯國家實驗室的278個機櫃。

經過不斷的升級之後,2009年該款IBM機器的最高浮點運算速度從每秒1.37578千萬億次提升到每秒1.4567千萬億次。

該款機器帶有12.96萬個3.2GHz 的PowerXCell 8i處理器核心,功耗為2483 kW。

它採用Red Hat Enterprise Linux作業系統和Infiniband連接器。

5. 2009年11月至2010年11月:Jaguar

Jaguar超級計算機可謂萬事通,能夠處理人類面臨的各種棘手難題。

該款位於美國橡樹嶺國家實驗室的機器既能測試新材料,又能進行氣候模擬。

其最強版本配有29.8592萬個2.2GHz的AMD Opteron 6274處理器核心以及59.8016GB(約合598TB)內存。

理論上,它的最高浮點運算速度為每秒2.62761千萬億次。

該機器使用基於Cray Linux的作業系統和Cray Gemini連接器。

它的功耗為5142 kW。

6. 2010年11月至2011年6月:天河1A

天河意義重大有兩方面的原因。

它標誌著超級計算機皇冠從美國轉到中國,另外它的設計與以往的頂級計算機截然不同。

該位於天津的機器處理的是與石油勘探與飛機設計相關的數據。

通過重度使用通常用於3D視頻遊戲的GPU,該機器能夠在避免功耗增加的情況下大幅提升性能,其整體功耗為4040kW。

2010年,天河1A使用7168個英偉達Tesla M2050 GPU、1.4336萬個英特爾Xeon X5670 CPU以及2048個NUDT FT1000多相處理器。

它的最高浮點運算速度為每秒4.701千萬億次,它使用的是基於Linux的作業系統和專用連接器。

7. 2011年6月至2012年6月:K computer

K computer剛推出時每秒可處理超過8千萬億次運算,讓日本繼2004年之後首次重奪最快超級計算機的頭銜。

該機器位於日本神戶理化學研究所計算機科學高級研究院,旨在攻克最棘手的一些科學問題,涉及從災難預防到醫療研究的各類主題。

不同於天河1A,該由富士通設計的機器並沒使用GPU,而是使用了70.5024萬個SPARC64 VIIIfx處理器核心,各個核心的主頻達2GHz,帶有約1.4PB的內存。

其最高浮點運算速度為每秒11.2804千萬億次,功耗為1.265989萬kW。

它採用定製連接器,搭載基於Linux的作業系統。

8. 2012年6月至2012年11月:Sequoia

Sequoia的性能強大到能夠模擬部分規模最大且最複雜的流程,如模擬宇宙的運行和人的心跳。

該機器位於勞倫斯利弗莫爾國家實驗室,2012年它不僅僅是最強大的超級計算機,效率也位居前列。

Sequoia屬於IBM Blue Gene/Q系統,最高浮點運算速度為每秒20.1327千萬億次,使用157.2864萬個1.6GHz的Power BQC核心,內存約為1.5PB。

它採用CNK和Red Hat Enterprise Linux作業系統,以及定製的連接器。

9. 2012年11月至2013年6月:Titan

Titan能夠每秒處理超過20千萬億次運算,其任務是幫助美國橡樹嶺國家實驗室的研究人員研究氣候變化、替代性燃料及其它的全球性挑戰。

該Cray XK7機器採用各種處理器,包括56.064萬個2.2GHz的AMD Opteron 6274處理器和英偉達K20x加速器。

當時它的最高浮點運算速度為每秒27.1125千萬億次,內存為71.0144萬GB。

Titan採用來自Cray的基於Linux的作業系統,以及Cray Gemini連接器。

其功耗為8209kW。

10. 2013年6月至今:天河二號

天河二號推出時能夠每秒處理超過33千萬億次運算,中國由此再一次從美國奪回最快超級計算機寶座,目前也仍守住了這一榮耀。

該機器部署於廣州的國家超級計算機中心。

天河二號由1.6萬個節點組成,每個節點有兩個英特爾Xeon E5 Ivy Bridge處理器和3個Xeon Phi 31SP協同處理器,計算核心共計312萬個。

這種架構可讓它並行執行大量的運算,不過據說這也加大了編程難度。

該機器的內存約為1PB,理論上它的最高浮點運算速度為每秒54.9024千萬億次。

其功耗為1.7808萬kW,它採用Kylin Linux作業系統和TH Express-2連接器。

當時的觀點並非是認為「天河系列」已沒有所謂的技術價值,而是想強調:當「天河1」於2010年10月首次擊敗美國橡樹嶺國家實驗室的「美洲虎」超級計算機後,成功幫助國人在歷史上首奪「最快超算」之頭銜時,「天河系列」的偉大使命實際上就已經基本完成。

再之後的「天河2」連續蟬聯,即使媒體用再多的篇幅去報導和渲染,也只能是徒增一些虛無飄渺的「自豪感」,而不能改變國產超算實際面臨的兩項殘酷事實:1. 最核心的技術仍依賴於美國——所以後來有了美國單方面宣布禁止向中國科研機構出口Xeon CPU和Tesla GPU的新規;2. 美國已經在研究下一代「百億億次級」(exascale)超算,能效標準遠超當前水平——所以我們眼下的領先,真的不能代表什麼。

因此,基於我們一時半會兒在自主核心硬體上難以趕超美國的事實,小編提出——將超算小型化、節能化和普及化會是一套更符合實際意義的做法,因為這能讓我們製造出更多可以榮登《綠色超算500強》榜單的中小型超算系統,能讓更多的學校和科研機構隨時隨意地用上屬於自己的超級計算機。

實際上,這也是大國發展、科技興國的重要指標之一。

然而萬萬沒有想到,時間僅過了一年,「神威太湖之光」的出現不僅確保了今年《綠色超算500強》前三甲的一個席位(過去中國大陸產超算從未登榜前十),更還一舉同時奪得了《全球超算500強》的冠軍頭銜,且完完全全用的是國產自主設計處理器(小編這裡不用CPU一詞,是因為從架構看已經脫離了傳統CPU的概念,有點英特爾Xeon Phi加速協處理器的意思,後者也是美國僅售名單產品之一)。

這樣的成績,在美國剛剛宣布對華禁售高性能處理器的大環境下,在苦苦掙扎也不願配合大陸共同研發的台灣半導體面前,簡直等同於一次核爆,其意義遠非「天河系列」繼續蟬聯「全球最強」所能比擬——當然這裡還是要再次澄清,小編沒有無視「天河」的價值,但用一套已掌握的技術標準來連續贏得競爭對手現階段已不參與的角逐,真的已不再具備任何值得大篇幅渲染的意義。

不要將所有的「國產芯」都一視同仁

每每提到「國產芯」,總會有那麼一群「不明真相」的網友要調侃、要嘲笑。

不能怪他們,畢竟有過上海交大「漢芯事件」這樣的黑歷史,也有著「龍芯」過分高調而不討喜的事實。

「少說多做」一直是小編在評價「龍芯」時的觀點,而「神威太湖之光」背後的「申威系列」處理器,就實實在在做到了這點,所以今天他們成功了,並且一鳴驚人。

當然,這裡要插個畫外音,要為「龍芯」做一點解釋:出於某些原因,「龍芯」雖然受到國家重視,但卻是「自負盈虧」的放養模式。

相比也是國家重點項目的「申威」,後者則得到了軍方的完全支持,因而無需擔憂能否持續發展的問題。

所以從這個角度理解,我們不能怪「龍芯」的完全商業化,但是——少接受採訪、少吹噓性能、低調做產品就行了,誇大產品在特定測試環境下性能趕超歐美是沒有意義的,因為「龍芯」定位的是通用計算市場,不是在指定領域下玩跑分。

「申威」顯然在獲得軍方支持後,走的並不是「通用」路線——能否支持普通人能理解的Windows、UNIX或者Linux發行版並不重要,「申威」作為國家安全戰略用晶片自然會有特殊定製版系統與之配合;性能或許也非最重要指標,能掌握核心技術並用於關鍵領域才是最具意義的事情——所以,「申威」一直特別低調,鮮有報導(比較大篇幅的報導始於2015年)。

直到今天勇奪世界第一,才讓美國頓時懵逼了,讓主流媒體突然沸騰了。

能被用於超算領域的「國產芯」大概也只有「申威」和「龍芯」兩個選擇,其它的基於ARM架構的晶片,則主要面向移動和通用市場,因此要一視同仁地進行比較並不具備價值。

未來還有可能出現的能挑戰「申威」的國產晶片,恐怕就只有等與AMD合作的那款SoC了——當然小編對此是極度懷疑中。

「神威太湖之光」的厲害和不同

「神威太湖之光」採用的是申威26010處理晶片,共40960個計算節點,每個節點由256個計算內核+4個管理內核(據說也帶計算功能)組成,所以整套系統共1060萬個CPU計算核——這個數字為排名第二的「天河2」的三倍,後者約為312萬個計算內核,因而在浮點計算性能上也大約是「天河2」的三倍:93.01 petaflop/s比33.86 petaflop/s。

然而,「神威太湖之光」的整機功耗只有15.37 MW,而「天河2」則為17.81 MW。

也就是說,「神威」是實現了性能倍增的前提下,功耗反而大幅降低了。

這才是一次真正意義的技術突破——當然,這與美國提出的50 gigaflops/watt的exascale次世代超算還是有很大差距(「神威」換算過來的每瓦性能約為6 gigaflops/watt)。

申威26010之所以能有如此強大的浮點計算性能是得益於Alpha處理器架構。

Alpha是不同於今天市場主流的X86、ARM、MIPS、Power和Sparc的又一處理器微架構,屬於RISC(精簡指令集)家族,曾在上世紀90年因大膽前衛的亂序並行設計而風靡。

雖說Alpha也不是申威的自主專利技術(原持有公司為DEC,後輾轉賣給了惠普,於2004年停止研發),但與龍芯使用MIPS一樣,在經過那麼多年的沉淪,把已經「過氣」的舊指令集和架構重新發揚光大,並加入新的構思(異構架構設計),也能算是一種創新,因此申威26010在「自主原創性」方面並不存疑。

申威26010的挑戰

不過,也正因為申威26010是基於DEC Alpha 21264這個專利已過保護期的技術所發展出的產品,且採用了類似英特爾Phi加速處理器的架構設計,「神威太湖之光」勇奪世界第一的背後,恐怕要面臨編程難、使用難、兼容性難等諸多挑戰。

譬如,Alpha早在2004年就停止後續開發了,因此很顯然它不會有開源社區的支持。

因此申威及其使用者就不得不自主維護一套系統和應用生態,而早期有能力參與其中開發的人員相信是十分有限。

此外,申威26010的架構既不像GPU,又不完全是基於CPU,想要合理調用計算加速,在編程上也需要額外學習成本,今天大量懂得OpenCL或CUDA編程的軟體工程師們恐怕也無法順利平移到「神威太湖之光」。

當然,申威還是主要以突破美國封鎖、掌握晶片核心技術為目的的項目,沒有那麼高的通用性或許並不是迫在眉睫的問題。

第45屆全球超級計算機500強排行榜不久前公布,天河二號第五次蟬聯冠軍,來自沙烏地阿拉伯的沙欣二號成為榜單中唯一的新面孔,這也是中東超級計算機首次躋身榜單前十。

位於廣州國家超級計算機中心裡的天河二號擁有312萬顆核心和1.6萬個運算節點,每秒浮點運算速度達到33.86千萬億次,是全世界運算能力最強大的超級計算機。

天河二號主要用於國防項目,還會被用於預測地震、進行氣候建模等應用領域。

美國愛恨兩難的態度

封鎖對中國的晶片出口,是美國愚笨但又無奈的抉擇。

儘管美國也知道這會刺激中國發展自主技術的晶片,但卻萬萬想不到進展竟如此之快。

如今看到「神威太湖之光」的異軍突起,美國雖不至於緊張,但卻面臨了一個兩難:繼續封鎖——傷害美國半導體企業的利潤,卻也阻止不了中國繼續發展超算;開放封鎖——未來的exascale超算恐會過早的被中國企業「借鑑」。

當然,鑒於「神威太湖之光」的成績,美國至少有一部分人能以此為由申請更多的經費,這些人相信是樂見「競爭」的。

從長遠看,美國exascale超算戰略在相當一段時間仍將會領先中國(到時候被反超也是正常的,希望媒體別瞎嚷嚷),「國產芯」如不能持續突破(《易評:從英特爾收購Altera看"國產芯"離世界有多遠》裡面有詳細技術面說明),眼下我們渲染的「自豪感」恐很快又會煙消雲散。

(本文主觀性陳述僅代表小編個人觀點,不代表網易科技立場)

本文來源:網易科技報導責任編輯:白鑫_NT4464


請為這篇文章評分?


相關文章 

全球最牛的計算機終於來了......

■ 網際網路頭條新聞每天為你報導■文:網際網路熱點主編賀博中國「芯」,震驚世界!全球超級計算機500強榜單20日公布,中國首款自主晶片製造的「神威太湖之光」取代「天河二號」登上榜首,中國超算上榜...