Intel XeonPhi處理器如何為機器學習/深度學習應用和框架提供強大優勢

文章推薦指數: 80 %
投票人數:10人

有人說,人工智慧(AI)是未來。

隨著網際網路的快速發展,在人工智慧和智能機器新時代,深度學習正以與歷史上其他計算模型截然不同的方式改變著世界。

機器學習 (ML) 正在迅速成熟。

立爾訊GPU伺服器

深圳市立爾訊科技有限公司一直專注高端伺服器行業應用定製服務,公司主要提供:定製伺服器,四子星伺服器、雙子星伺服器、低延時伺服器等產品和相關服務,研發能力強勁,多項專利打造定製化伺服器應用,致力打造高端伺服器雲智能應用平台。

如今,我們能夠把大量數據輸入機器學習應用中,後者能學會精確預測可能出現的結果。

隨著訓練數據集的擴大,深度學習 (DL) 模型的精確性呈指數級增長。

數以萬億的互聯設備向系統發送數據,數據集的規模可達數百 TB。

機器學習革命的成果在互動語音、視覺搜索、無人駕駛汽車、實時欺詐檢測、對假期照片中的人臉進行識別的社交網絡等領域得到了很好的體現。

它滲透各行各業,影響無處不在。

經過長達八年各種相關研究,Intel終於正式退出了MIC眾核架構的Xeon Phi協處理器,為超算帶來了一股新鮮勢力。

Xeon Phi處理器在很大程度上繼承了流產的獨立顯卡項目Larrabee的遺志,外部造型看似顯卡,其實是和Tesla類似的專用加速計算卡,其架構採用順序、雙發射x86,支持64位運算,每個核心支持最多四個線程,最多61個核心、244個線程,並且每個核心都搭配一個512-bit SIMD適量引擎。

當然了,這裡的「核心」跟Tesla裡邊的CUDA核心是沒有直接可比性的,他們分別來自CPU、GPU的世界。

Intel Xeon Phi 處理器

讓我們揭開全新英特爾至強融核產品家族的神秘面紗,了解其在處理 ML 工作負載方面的非凡優勢。

英特爾® 至強 融核™ 處理器特性

在設計第二代英特爾至強融核晶片時,發明了支持自啟動的融核處理器,不需要在購買額外的處理器運行作業系統,也不需要通過PCIe插槽傳輸數據。

英特爾至強融核處理器 x200包含72 個處理器內核,每個內核支持 2 個英特爾® 高級矢量擴展指令集 512(英特爾® AVX-512)SIMD 處理單元,每內核浮點性能顯著提升。

常用的 ML 算法均可從中受益,如浮點乘法和乘加融合指令 (FMA)。

英特爾至強融核處理器 x200提供高達每秒 6 萬億次浮點運算的計算能力。

多核、多線程的功能和高帶寬封裝內存子系統(多通道 DRAM)及英特爾® Omni-Path 架構(英特爾® OPA)的集成結構技術相結合。

高帶寬集成內存(高達 16 GB MCDRAM)保證數據快速傳輸到內核,並為平台額外提供高達 384 GB 商用 DDR4 內存。

程式設計師可以通過指定數據的大小及時間來管理內存。

MCDRAM 使用戶可以靈活地對數據高速緩存,不必擔心內存管理。

(MCDRAM 可以配置為三級高速緩存、非一致性內存訪問 - 可分配內存和高速緩存和內存的混合組合。

當處理大型 ML/DL 工作負載時,從一個節點到千百個節點的擴展能力是至關重要的。

藉助英特爾 OPA 架構,英特爾至強融核處理器 x200 能夠以近乎線性的方式擴展內核和線程。

在編碼層面,通過架構可以最少的編程快速高效地從遠程存儲獲取數據,並放入本地高速緩存。

這些創新為機器學習和深度學習提供了優質的訓練時間。

比如,AlexNet 訓練方面,相對於單節點而言,128 節點英特爾至強融核處理器 x200 的訓練時間減少了 50 倍。

進行 GoogLeNet 訓練時,32 節點英特爾至強融核處理器 x200 的擴展效率達到 87%,比最新公布的最高數據超出 38%。

應用只有並行化,才能利用大規模並行多核、多線程架構。

否則,你只能獲得單核、單線程性能。

英特爾至強融核處理器 x200 的每個內核包含多個矢量處理單元,所以整體計算密度更高,成為抵消單核、單線程性能的一個因素。

因此,如果你的工作負載能受益於高水平的並行性和線程並行性,英特爾至強融核處理器把更多計算融入更小的區域,功耗低於其他解決方案。

二進位兼容

從軟體角度看,第二代英特爾至強融核處理器與包括英特爾至強® E5 家族處理器在內的 x86 架構處理器之間是二進位兼容的。

這意味著你只需要實施一次代碼現代化,第二代英特爾至強融核處理器和現有的基於英特爾至強處理器的伺服器的訓練效率會顯著提高。

「現代化」不是讓用戶自己寫 ninja 並行代碼。

我們正在利用通用英特爾® 數學核心函數庫等工具,簡化基於 x86 架構的通用 CPU 的 ML/DL 代碼的並行處理,數學核心函數庫包括新的擴展指令集,用來優化現已推出的英特爾® MKL 2017 Beta 版的深度神經網絡。

通過我們的不懈努力,在沒有升級硬體的情況下,深度學習應用的性能提升了大約 30 倍。

總結

第二代英特爾至強融核產品家族進一步實現了英特爾普及 ML 和多層神經網絡的目標,這也是深度學習應用的計算密集訓練階段所必需的, 為了實現這一目標,英特爾不斷的對各類工作負載進行優化,以提高機器的決策能力。

文章摘自英特爾精英匯


請為這篇文章評分?


相關文章