CPU、GPU這樣協作更配，IBM和NVIDIA新款人工智慧伺服器又把英特爾秒了

2020-11-05

文章推薦指數： 80 %

投票人數：10人

在傳統伺服器晶片市場，英特爾是個巨無霸，無論是IBM Power還是ARM陣營，所占有的份額都微乎其微。

但戰線轉移到人工智慧領域，IBM似乎更有優勢。

據外媒報導，近日IBM和NVIDIA聯手推出了新伺服器IBM Power Systems S822LC for High Performance Computing（還有兩款產品分別為IBM Power Systems S821LC和IBM Power Systems S822LC for Big Data），從這一串名字可看出，這並不是一款普通的伺服器，它是專門為人工智慧、機器學習和高級分析應用場景而推出的。

IBM官方宣稱，這款伺服器數數據處理速度比其它平台快5倍，和英特爾x86伺服器相比，每美元的平均性能高出80%。

這款伺服器比英特爾x86強在哪？

據了解，該款伺服器使用了兩個IBM Power8 CPU和4個NVIDIA Tesla P100 GPU。

Power8是目前IBM最強的CPU，從之前媒體的評測數據來看，其性能是要優於英特爾E7 v3的，而Tesla P100是NVIDIA今年才發布的高性能計算（HPC）顯卡，這樣的配置組合在處理性能上自然不弱。

原因有兩個：

其一，相比CISC指令集，採用的RISC指令集的Power處理器可同時執行多條指令，可將一條指令分割成多個進程或線程，交由多個處理器同時執行，因此並行處理性能要優於基於CISC架構的英特爾x86晶片。

另外，這款伺服器的巧妙之處還在於Power8和Tesla P100之間的「配合」。

Power架構的另一大特點就是具有充分發揮GPU性能的優勢。

實際上，Tesla P100有兩個版本，一個是NVIDIA今年4月推出的NVLink版，另一個是6月發布的PCI-E版本，簡單來講，前者是後者的加強版，與IBM Power8配對的正是Tesla P100 NVLink版。

Tesla P100採用的是Pascal架構，能夠實現CPU與GPU之間的頁面遷移，不過每塊NVLink版還配置了4個每秒40 GB NVIDIA NVLink埠，分部接入GPU集群。

NVLink是OpenPOWER Foundation獨有的高速互連技術，其有效帶寬高達40GB/S，堪稱PCIE的升級版，足以滿足多晶片並行計算的需求。

不過支持這一標準的CPU屈指可數，Power8則是其中之一（英特爾不在此之列）。

這就意味著，Power8 CPU能夠和Tesla P100 GPU以更高的速度完成通信，這一特性可讓IBM Power Systems S822LC for High Performance Computing中的CPU和GPU之間的連接速度遠快於普通的在PCIe總線上交換數據的表現。

IBM表示，「這一功能意味著，不同於在GPU處於PCI-E介面上的x86系統上，資料庫應用程式、高性能分析應用程式和高性能計算應用程式運行能夠在要大得多的數據集上運行。

」

另外，Tesla P100的半精度浮點運算性能達到了每秒21萬億次 —— 比插入現代PCI-E插槽的GPU高出大約14%，這樣的處理能力對訓練深度神經網絡的重要性不言而喻。

IBM還做了個縱向對比，和老款Power S822LC伺服器的Tesla K80 GPU加速器相比，新款伺服器的加速能力提升了兩倍多。

預計明年問世的IBM Power9會延續對CPU+GPU組優化。

為何是「CPU+GPU」？

眾所周知，在人工智慧人工智慧和深度學習等計算任務上，CPU早已不堪重任。

因此，不少企業紛紛推出人工智慧專用晶片概念，例如谷歌的TPU（Tensor Processing Unit）；還有業內人士力挺FPGA更適合深度學習的算法，這也是英特爾以高價收購Altera的主要原因。

不過，上述兩個替代CPU的方案都還未成熟，目前大多數企業採用的依然是「CPU+GPU」的組合，或者稱為異構伺服器。

通常來說，在這種異構模式下，應用程式的串行部分在CPU上運行，而GPU作為協處理器，主要負責計算任務繁重的部分。

因為和CPU相比，GPU的優勢非常明顯：

1.CPU主要為串行指令而優化，而GPU則是為大規模的並行運算而優化。

所以，後者在大規模並行運算的速度更快；

2.同等面積下，GPU上擁有更多的運算單元（整數、浮點的乘加單元，特殊運算單元等等）；

3.一般情況下，GPU擁有更大帶寬的 Memory，因此在大吞吐量的應用中也會有很好的性能。

4.GPU對能源的需求遠遠低於CPU。

當然，這並不代表人工智慧伺服器對CPU沒有需求，CPU依然是計算任務不可或缺的一部分，在深度學習算法處理任務中還需要高性能的CPU來執行指令並且和GPU進行數據傳輸，同時發揮CPU的通用性和GPU的複雜任務處理能力，才能達到最好的效果，通俗點說就是實現CPU和GPU的協同計算。

雖然NVIDIA和Intel等晶片商正在為GPU和CPU孰強孰弱陷入了口水戰，但實際上這些企業已經開始在異構計算上加大了研發力度，至少在近期內，CPU和GPU的結合將繼續成為人工智慧領域最有效的方案。