超大規模數據中心迎來FPGA加速器應用新常態

2020-11-03

文章推薦指數： 80 %

投票人數：10人

例如在體育賽事和電腦遊戲活動直播不斷風靡的推動下，4K視頻和H.265編碼算法迎來大發展，傳統CPU開始難以應對所需的幀速率。

與此類似，人工智慧也正通過將海量數據用於培訓神經網絡，供其學習和識別數據中的模式，再被用於圖像識別、自動駕駛、搜索優化和自然語言翻譯等多種不同應用。

在這兩大領域中，數據中心越來越多地使用專用加速器來實現對用戶查詢的低延遲響應。

Intel: 我們支持ARM內核

英特爾(Intel)公司全球副總裁兼中國區總裁楊旭在2016年11月舉辦的英特爾SoC FPGA開發人員論壇(ISDF)上，再一次向業界做出包括投資新的FPGA和SoC FPGA產品路線圖、支持更長的產品生命周期、繼續為客戶提供一流的服務與支持、以及繼續支持Altera SoC FPGA中ARM內核在內的四大承諾。

他表示，當今技術正在不斷「打破數字世界與真實世界之間的藩籬」，Intel內部將物、設備與雲之間的關係稱為「增長的良性循環」，一系列的技術通過這個循環增強了它們的價值，也促使英特爾不斷調整自身戰略。

而FPGA的獨特性與靈活性在智能化連接領域中扮演著極具差異化優勢的角色，這也是為什麼Intel願意斥資167億美元收購 Altera的根本原因。

根據規劃，英特爾下一代FPGA和SoC FPGA產品的發展路線圖將分為低中高三個產品平台(圖1)，並支持Intel架構(IA)集成。

其中低端產品主要應用於工業IoT、汽車和小區射頻領域，採用英特爾22nm工藝技術；中端產品主要應用於4.5G/5G無線、UHD/8K廣播視頻、工業IoT和汽車領域，採用英特爾10nm工藝技術；高端產品主要應用於雲和加速、太比特系統、高速信號處理領域，採用英特爾10nm工藝技術。

圖1：英特爾下一代FPGA和SoC FPGA發展路線圖

英特爾承諾會根據不同的客戶需求提供不同的異構架構，包括：分立的CPU+FPGA、封裝集成的CPU+FPGA、以及將Intel CPU/FPGA/ARM三者進行管芯集成的FPGA。

作為目前英特爾性能最為強勁的FPGA產品，Stratix 10 FPGA/SoC FPGA系列的所有型號都採用異構3D SiP集成技術，通過使用Intel專用嵌入式多管芯互聯橋接(EMIB)技術將高密度單片FPGA內核邏輯、高速串行收發器和協議塊集成在一起。

此外，該系列也是第一款採用HyperFlex新體系結構的器件。

通過在所有內核互聯布線段上引入寄存器，Stratix 10系列能夠有效減少布線延時，提升整體性能。

Xilinx：可重配置加速堆棧提升2-6倍計算效率

作為FPGA技術的發明者，賽靈思(Xilinx)公司過去幾年在數據中心應用中取得了巨大發展。

賽靈思戰略與市場營銷部高級副總裁Steve Glaser提供的相關資料顯示，目前全球七大超大規模雲服務公司中已有3家採用了賽靈思FPGA，其中百度已於2016年10月宣布設計出賽靈思UltraScale FPGA池，以加速機器學習推斷；2016年5月，賽靈思攜手AMD、ARM、華為、IBM、Mellanox和高通共同成立智能高速緩存一致性互聯標準(CCIX)聯盟，5個月後成員數量已激增為成立之初的3倍；11月，賽靈思發布採用高帶寬存儲器(HBM)和CCIX技術的最新16nm Virtex UltraScale+ FPGA產品，在將存儲器帶寬提升20倍的同時，還將單位比特功耗降低4倍。

賽靈思雲計算戰略市場開發總監Andy Walsh

然而，FPGA一直存在編程難的問題，而且需要相關人員同時具備軟硬體技能。

為了更好地滿足新興市場需求，繼2014年發布針對FPGA加速的SDAccel軟體定義開發環境後，賽靈思於2016年底針對超大規模數據中心領域發展最快的三大計算密集型應用：機器學習、數據分析和流媒體視頻直播，推出可重配置加速堆棧。

這意味著賽靈思提供的將不止是FPGA晶片，還包括優化的數學函數庫與應用函數庫(如用於機器學習的Caffe)、軟體框架實現方案、支持OpenCL和C/C++等高級語言的工具、便於配置和管理的 Openstack支持，以及預期的加速器板參考設計。

賽靈思雲計算戰略市場開發總監Andy Walsh稱，通過賽靈思FPGA，該可重配置加速堆棧方案提供了比x86伺服器CPU高40倍，比競爭型FPGA方案高6倍的業界最高計算效率。

通過切換至最佳設計比特流，對這些工作負載的優化僅需毫秒級即可完成。

「一個加速器在某項特定工作負載下可能很快，但還必須要看它能否能降低數據中心的整體運營成本。

」Andy Walsh解釋說，加速技術的總擁有成本有兩大決定性因素：加速器可支持的應用廣度，以及加速器如何能夠針對這些應用方便高效地配置和池化，從而確定加速器的利用率。

賽靈思戰略與市場營銷部高級副總裁Steve Glaser

圖2列出了用於加速數據中心工作負載的不同可選方案：CPU、定製ASIC、GPU和 FPGA。

在Andy Walsh看來，GPU和定製ASIC雖然也採用池化配置部署以提高利用率，但二者都不能支持廣泛的應用。

由於缺乏可重配置性，二者也只能支持與其固定硬體架構相匹配的工作負載。

此外，創建定製ASIC所帶來的巨大的設計投入、設計風險和和設計成本，使其相比FPGA十分不划算，缺乏經濟性。

至於Intel提出的集成式CPU-FPGA設計的戰略，他認為該方案限制了應用的廣度和加速器的利用率，使其進入了「無人區(no man’s land)」。

這種CPU+FPGA的器件受功耗密度的限制，通常限制FPGA只能是中低端器件和有限的工作負載。

FPGA集成在CPU套件中，也會限制池化加速器的能力，從而大幅降低其利用率。

圖2：用於加速數據中心工作負載的不同方案在應用廣度與利用率上的區別(來源：賽靈思)

「Altera強調浮點精度DSP，這與包括機器學習推斷在內的眾多應用並不匹配，而且遠低於針對訓練優化的GPU的計算效率。

」Andy Walsh說，就計算效率而言，賽靈思FPGA比Altera獨立FPGA高出2-6倍，相比Intel集成式MCM利用率則大幅提升，其優勢源於出色的DSP架構、存儲器層級結構和晶片技術的領先地位。

圖3：用於加速數據中心工作負載的不同方案在利用率與計算效率上的區別(來源：賽靈思)