英特爾 Raja Koduri 獨家解讀:如何以指數級思維引領創新

文章推薦指數: 80 %
投票人數:10人
更多架構好文,點擊文末了解更多

對於英特爾和整個行業而言,摩爾定律已經作為計算機革命的脈搏存在了數十年。

但隨著高級節點的成本和複雜性增加,同時算力應用場景的需求越來越多元化,計算環境日趨複雜,只依靠硬體工藝製程的突破越來越難。

在 7nm 晶片的推出上略顯延遲的英特爾無疑需要更多新的思路。

與此同時,當深度學習計算模式開始逐漸固化,新硬體優勢凸顯,如何進行軟硬體的協同設計,將成為業界未來幾年最重要的研究方向之一。

而這正是英特爾技術路線圖上早已布下的要點之一。

美國時間 5 月 14 日,英特爾開源技術峰會 OSTS』19 上在華盛頓州史蒂文森召開,英特爾首席架構師,英特爾公司高級副總裁兼架構、圖形與軟體部門總經理 Raja Koduri 在會上發表了主題為《指數級思維》的演講,詳細解讀了向以數據為中心的業務轉型後,英特爾最新的技術理念和軟體布局。

Raja Koduri 原任 AMD RTG 部門主管、顯卡首席架構師,他在 2017 年底離開 AMD 加入英特爾。

英特爾管理層和董事會給他的首要責任之一,就是為英特爾制訂新策略、建立新願景、規劃清晰的技術和架構路線圖。

他花了 18 個月的時間深入了解不同面貌的英特爾,並嘗試尋找這家「年過半百」的晶片巨頭突破產業瓶頸問題的解決之道。

對於全新硬體架構的每一個數量級的性能提升潛力,軟體能帶來超過兩個數量級的性能提升

」Raja 如是說,在他看來,軟硬體協同設計是解決問題至關重要的一環,對於架構來說,「問題不在於硬體,而在於軟體。

」對於英特爾而言,摩爾定律的哲學不僅僅指的電晶體的指數級增長,還有用戶價值的指數級增長。


下文為 InfoQ 現場記者根據演講速記內容整理而成。

超越摩爾定律,不一樣的指數級思維

過去幾年間大家所能獲得的計算力正在以驚人的速率增長。

回顧過去 35 到 40 年間計算力的發展歷程,你會發現它的增長速率是呈指數級上升的。

而在這期間我們經歷了一些基礎性的變化,比如萬物數字化、萬物互聯、萬物移動化、萬物雲化,以及現在大家開始談論的萬物智能化

回顧在這幾次關鍵轉變,並回顧我們在做的事情,就會在這些轉變里發現一個有趣的事情,即硬體與軟體的結合

網際網路用戶在過去十年里增長了十億人,我們從 PC 時代進入到網際網路時代。

這一次轉變的軟硬體結合的典型代表就是 PC 上 X86 架構和 Windows 系統的結合。

現在我們已經進入了下一個時代,也就是移動和雲的時代。

我們同樣能看到 10 倍的增長,即從 10 億網際網路用戶增長到 100 億設備,移動化成為趨勢。

在這一次轉變中,硬體和軟體的結合也發生了變化,移動化時代的主導變成了 ARM 架構和 iOS 及 Android 作業系統,而 Linux 系統和 X86 平台則占據了雲市場。

從 10 億到 100 億,這些就是每個時代硬軟體結合的變化。

現在大家都在談論 1000 億台設備的下一個時代。

所有企業都在說 TAM(Total Addressable Market,潛在市場總規模)、擴張的 TAM、45 億美元的 TAM,在業界有很多這樣的商業討論。

這些討論所表達的其實是一個意思:「新的時代會有 1000 億台設備相互交流。

」那麼從硬體和軟體結合的角度出發思考,什麼可以替代 Linux 和 X86,ARM 和 iOS、安卓,或者 X86 和 Windows,來支持這 1000 億台設備呢?


這種指數級的增長對英特爾來說並不是新鮮事,我們的企業就是基於此發展起來的。

對於英特爾和行業而言,摩爾定律就是計算機革命的脈搏

現在關於摩爾定律有很多聲音:它將何去何從,摩爾定律已死,等等……所以,我想先快速回顧一下摩爾定律的發展。

摩爾定律描述的四個重要特徵包括電晶體密度、單價性能、每瓦性能以及頻率。

我們將摩爾定律的發展歷程大致分為三個時期。

第一個時期是兆赫時代,也被人們被稱為黃金時代,在這一時期,我們在電晶體密度、單價性能和每瓦性能上都實現了極大提升,頻率也在每兩年大幅提升一次。

接著我們進入了第二個時期,即多核時代,這一期間電晶體密度繼續增加,但是單價性能下滑了,每瓦性能從平均 1.7 倍降到 1.3 倍,頻率提升也有所放緩。


接下來向哪兒發展?在從 2000 年開始到現在將近二十年的時間裡,我們的創新一直都不少。

下一個時代,也就是我們說的架構時代,內核會進一步扁平化,密度提升的比率會稍微低一些,但整體還是會像摩爾定律所說的每兩年提升一次,每瓦性能和頻率的提升都會再低一點。

這不只是電晶體的變化曲線,它實際上也是我們在軟體領域的前進曲線。

這是一個前線的架構師對我說的:「我們需要更多的電晶體。

」如果不作出改變,我們是無法使所有工作負載都快速運行的。

這些電晶體也會有別的用處,不只是原來在舊的單線程 CPU 頻率矩陣或未經修改的內核中快速運行。

電晶體的運行速度會逐漸增加,但你想有指數級的增長,那就必須要硬體和軟體來共同創新。

這一點將貫穿在我的發言之中。

軟體社區和硬體社區相互交流,並真正去思考彼此的問題,這比以往任何時候都更重要。

關於英特爾對摩爾定律的內化,我花了十八個月的時間去了解這家公司。

在過去十八個月里,我至少見過三個英特爾。

有研究電晶體的英特爾,有改進設計的英特爾,以及我最近發現的一個,就是開源的英特爾。

開源的英特爾就像是曼哈頓的中央公園,那裡面是一群完全不同的人。

在英特爾,我們關於摩爾定律的哲學將永遠存在。

除了密度之外,我們還能有什麼其他創新,來實現用戶價值的指數級增長呢?這不僅僅是實現電晶體的指數級增長。


我在去年 12 月份的架構日上公開解釋了英特爾的技術願景,那就是「英特爾將提供多樣化的標量、矢量、矩陣和空間架構組合,以先進位程技術進行設計,由顛覆性內存層次結構提供支持,通過先進封裝集成到系統中,使用光速互連進行超大規模部署,提供統一的軟體開發接口以及安全功能。

英特爾的六大技術支柱:軟硬兼施

這一技術願景中涵蓋了英特爾推出的六大技術支柱,我們圍繞這六大技術支柱制定了技術和架構的路線圖,不只是製程技術,還包括封裝、架構、內存和存儲、互連、安全、軟體。


製程 & 封裝

電晶體、封裝和設計的同步的聯合架構優化是摩爾定律未來發展的基礎。

在製程方面,基本上就是電晶體、封裝和設計的同步的聯合架構優化,這三者需要緊密地結合在一起來推動摩爾定律繼續發展。

對於硬體領域的人來說,如果你同時對比性能、功率和成本這三個方面,沒有單個的晶片類型可以成為所有工作負載的最優解

對桌面 CPU 來說,最好的是能將頻率提高到 5GHz 或以上的高性能 CPU,但它對顯卡、AI 晶片或者 FPGA、移動晶片來說卻並不好。

這就是問題關鍵所在。

因此我們決心要制定一個路線圖,用先進技術把不同的小晶片,甚至是不同的核心連接起來。

這樣我們就能讓單片 SoC 實現性能、功耗和成本的最佳組合


所以我們為我們的封裝技術制定了路線圖。

標準封裝的接點間隔大約是 110 微米,然後到嵌入式多晶片互連橋接 2D 封裝(EMIB)技術,它的接點間隔就是前者的一半,這樣你在二維中就可以得到更大的帶寬,功耗也更低,能下降近 1/5。

然後是 Foveros 3D 封裝技術,這項技術是下一個技術飛躍,這些就是我們為解決電晶體密度問題而開發的工具。

我們採用這些技術,從而在一個封裝上構建完整的系統,集合不同速度的電晶體和 IO 晶片、互連等等。

所以在製程和封裝技術上,我們有密度的提升,有 Foveros 技術進步。

我們利用先進的封裝技術為每個工作負載都提供相應最優的晶片。

架構

在接下來十年中,我們將看到比過去五十年多得多的架構提升。

在來到英特爾之後,我們建立了一個架構分類系統,讓我們不再迷失於 CPU、GPU、加速器和 FPGA。

首先我們來看看不同的工作負載。

其中包括看起來像標量計算的計算,看起來像向量計算的計算;現在還有個看起來像矩陣計算的新型卷積計算;然後還有 FPGA 代表的空間架構。

人們常說不同的工作負載好像是一片土地上的不同地區,中間被深溝隔開。

但是,在接下來五到十年中最重要的現代工作負載,就是這種標量、矢量、矩陣和空間架構的組合


性能和通用性對於每一種架構都很重要

這裡我們用 Y 軸代表通用性,X 軸代表能效。

可以看到 CPU 是最通用的,雖然可能不是其中性能最好的;GPU 在性能模型上有些有趣的創新,它已經比以前更通用,雖然還不像 CPU 那麼通用,但是 GPU 對於這種高強度工作負載的性能更好;FPGA 加速器的效率要高得多,例如對於特定功能而言,FPGA 加速器效率更高、更節能、更具成本效益,但它並不通用。

我們真正要關注的是曲線的不同斜率(性能和通用性的不同搭配組合)。

因此,我們樹立了清晰的願景和清晰的路線圖:「我們希望提供標量、矢量、矩陣和空間的多種架構組合,部署在 CPU、GPU、FPGA 和加速器套件之中」。

當今世界上最重要和最有價值的架構仍然是 CPU 架構

顯然,仍然有大量的應用程式只依賴於 CPU。

所以,在黃金時代它能夠以指數級速度增長,後來核心密度的增速開始放緩。

每次我們碰到速度放緩的時候,就是我們進行創新的時候。

當我說「我們」,指的不僅僅是英特爾,而是英特爾和合作夥伴一起創新。

這樣的創新需要硬體和軟體的更迭,所以我們的創新是轉向多核架構的。

每次向新的架構轉變、造成硬體和軟體更迭時,至少會帶來 10 倍的新的可用工作負載。

沒有 10 倍的話,能耗就太高了,不值得去修改軟體,去改變硬體和軟體的組合。

所以我們轉向了多核架構。

在英特爾,我們有兩種標量架構,即酷睿和凌動家族。

酷睿關注的是峰值性能和功能,搭載所有全新的功能,最新和最好的安全性,它是功能最豐富的 CPU。

凌動重點關注某些應用的成本效率和功耗效率。

我們在路線圖中會同時推進這兩類處理器向前發展。

Sunny Cove 微架構即將面世,還有 Ice Lake 架構和即將推出的更多創新。

我們將繼續大力投入,推動架構發展。

當我們的標量架構向前發展的時候,外界發生了一些變化。

顯卡和 GPU 在 2006、2007 年間,開始著眼於圖像處理,同時提升了 GPU 的浮點計算能力,使得語言和方法在實踐中更易編程。

GPU 的起點是 CPU 的十倍,這吸引了高性能社區、遊戲社區、可視化社區的興趣,並最終發展到了機器學習社區。

另一個 GPU 的架構語言就是微架構。

英特爾有一個鮮為人知的秘密是,我們已經做了 20 年的顯卡了,我們推出了第 11 代集成圖形卡。

今年,我們將做第一個突破 1 TFLOP 的 GPU,集成到 Ice Lake 平台上,作為我們發展的第一步。

大約 18 個月前,我們經歷了策略上的變化,決定進軍高性能顯卡領域。

所以我們有了已經公開的 Xe 新架構,和兩個微架構。

一個針對移動設備進行了優化,一個針對數據中心進行了優化。

我們的目標是推出基於子功能的獨立顯卡產品,從超級集成到移動集成,從萬億浮點到千兆浮點。

這就是 GPU 方面的情況。

關於矩陣架構方面,我們決定做的第一件事是確保世界上最有價值的套件是 CPU 套件。

讓它獲得足夠有吸引力的矩陣性能,然後我們開始建造。

我們推出了 Cascade Lake,在 CPU 套件上還將推出更多產品。

在 CPU 套件上針對 AI 工作負載的性能提升也是 10 倍的。

我們還在做離散 AI 加速器,在 CPU 之上又提升了 10 倍性能。

下圖是關於英特爾人工智慧策略的簡單解讀。

我眼中的基本策略是,我們相信 AI 對於每個套件都很重要,不管是 CPU、GPU 還是離散加速器,每個設備都要進行一些矩陣架構的探索。


考慮到這一點,我們提供 CPU 套件和離散加速器。

以此類推,我們有多個產品系列,無論是用於自動駕駛,還是雲計算,還是用於客戶端設備。

在 AI 訓練方面,我們有 Xe GPU 和 CrestLine。

我們看到,在生態系統面臨的挑戰中,硬體是人工智慧最簡單的部分

在這個領域有 20 家不同的初創公司,他們在硬體方面都取得了很大的進展,但所有人都在軟體方面受到阻礙。

坦白地說,雖然對人工智慧有很多討論的聲音,但目前只有在兩個地方取得了實際上的進展:它的大部分仍然運行在 CPU 上;或現在 CPU 上沒有運行的,大多數在 GPU 上運行。

問題不在於硬體,而在於軟體,這就是架構方面的情況。

內存和存儲

我們需要指數級和先進的內存層級架構,以滿足當前的計算需求。

內存上的進展其實能被摩爾定律解釋。

當內存容量以指數級速率增加時,內存的帶寬卻呈次線性增長。

我們來看看內存層級架構,從高速緩存到硬碟,每個級別都應該是 10 倍的提升。

英特爾也在開發封裝內存、持久內存和 3D NAND 等技術,以實現 10 倍的提升。


現在是否能實現這個目標,取決於我們設定在硬體和軟體邊界的哪一邊。

如果不改變相應的軟體架構,這些內存層級架構的 10 倍提升都無法轉化為實際的工作負載提升

英特爾在持久性內存方面做了很多工作,當我們產品出貨之後,你會看到一些不錯的數據增長,比如 10% 或者 20%。

當我們真正投入到應用當中,內存的 10 倍潛力將被發揮出來。

互連

下一個技術支柱是互連,包括片上互連、晶片間互連、系統級互連和數據中心級互連,每個層級的互連都在創新。

在一個以數據為中心的時代,覆蓋不同場景的互連技術有極大的需求,包括從幾微米到幾英里的無數技術。

在英特爾,我們從片上、封裝內互連、處理器間互連、數據中心互連到無線互連等各方面都有投入。

我們還開放了 Compute Express Link(CXL)規範,
這是我們在高速處理器間互連的多年學習和積累,我們將其公之於眾,包含整個生態系統以及一套良好的標準。

安全

我們之所以將安全作為六大技術支柱之一,是因為我們相信:未來 10 年內任何成功的新架構都應將安全作為其基礎和優先特性

安全的挑戰源於外露面的指數級增長。

想想這其中的所有可能性:六個內存層級架構,四個互連層級架構和數十億個設備。

在這其中,如果架構的每個部分都有一個指數級的外露面,那麼你需要保護 4 乘以 6 乘以 4 個面,這就是 96 個面,是一個非常龐大的數字。

在業內,我們在外露面仍然存在問題。

每次向 CPU 添加新指令時,都會增加外露面。

因此,對於所有硬體和軟體方面來說,安全的挑戰和機遇都是並存的。

軟體

最後一個支柱同樣重要,它就是軟體,更接近在座各位的產品。

我在八個月前就發表了這樣的聲明,即對於全新硬體架構的每一個數量級的性能提升潛力,軟體能帶來超過兩個數量級的性能提升

你可以想像一下,我在一家充滿硬體工程師的公司中有多「受歡迎」。

有趣的是,這不僅僅只是一個假大空的聲明,實際上每一周我都會看到這方面的例子,我將重點介紹其中幾個有代表性的項目:從 JDK8 到 JDK9,將現有硬體的性能提升 6 倍;結合內存層級架構,加上軟體棧技術,通過傲騰 + 軟體的方式將工作負載的性能提升 8 倍;利用 DL Boost 等架構擴展,使得從 Skylake 升級到 Cascade Lake 之後,相比上一代硬體提速 28 倍。

這一系列的表,相當於是在一次軟體發布中就實現了數代的硬體性能提升

英特爾軟體策略:一個架構橫跨所有領域

英特爾在軟體領域的策略是一個架構我們圍繞著一個架構打造了所有功能,並在橫跨 PC、網絡和數據中心的所有領域中利用這個架構


我們擁有一個 1200 萬活躍開發者的生態系統,橫跨 PC、網絡和數據中心。

歸納起來,英特爾的軟體使命主要有三點:第一,簡便和可擴展,不僅可以擴展到所有的架構,更可以擴展到所有的作業系統,能夠從一個節點擴展到生態系統中的數百萬台互聯設備;第二是開放性,向所有人開放標準;第三是統一的開發體驗。

英特爾希望通過實現這三個目標,解決計算異構性的問題。

我非常高興地告訴各位,我們的團隊在 One API 項目上取得了巨大的進展。

「one API」項目的目的是簡化跨 CPU、GPU、FPGA、人工智慧和其它加速器的各種計算引擎的編程,該項目包括一個全面、統一的開發工具組合,可以將軟體匹配到能最大程度加速軟體代碼的硬體上,從而讓英特爾的計算架構釋放出更高的性能和效率。


今天,我宣布該項目將在 2019 年第四季度之前如期交付給開發者。

One API 整合了計算和架構創新,通過高速互連以及新的軟體開發模式,為開發者簡化 API,並從英特爾計算架構釋放出更高的性能和效率

我們將在下個月討論更多細節。

推薦閱讀

如何使用 WebAssembly 將命令行 JSON 處理工具 JQ 移植到瀏覽器?

拜網際網路所賜,軟體市場和企業規模因此擴大了 10 倍

更多架構好文,點擊了解更多


請為這篇文章評分?


相關文章 

下一個十年,英特爾不「擠牙膏」了

了解PC硬體的朋友有言,Intel近幾年有點兒水逆了。先是近幾代酷睿處理器的架構都是小幅改良,運算效能提升不大,被人冠以「牙膏廠」的外號,而10nm量產還要等待一段時間;AMD則憑藉桌面端的Ry...

摩爾定律走向終結計算的未來會是什麼?

摘要:3月15日消息,隨著摩爾定律走向終結,計算機硬體的進步可預測的時代將會走到盡頭。計算行業進步的第三個領域是新計算架構——針對特定任務而優化的專用晶片,甚至是利用量子力學同時處理多個數據集的...

刺探英特爾新「軍情」

多次聽到英特爾宣講自己轉型成「數據為中心」的企業,但你知道英特爾數據為中心的業務營收占比多少嗎?文︱亞亞君圖︱英特爾1985年的一天,安迪·格魯夫意氣消沉地與英特爾董事長兼最高執行長官戈登·摩爾...

摩爾定律」真的不行了

摩爾定律是由英特爾(Intel)創始人之一戈登·摩爾(Gordon Moore)提出來的。其內容為:當價格不變時,集成電路上可容納的電晶體數目,約每隔18個月便會增加一倍,性能也將提升一倍。換言...