文章標籤：

晶片

FPGA

附庸

AI晶片可能只是FPGA的附庸

2020-09-02

文章推薦指數： 80 %

投票人數：10人

央行放水之後，催生出了一大批手握重金的投資機構，而國內優秀的投資標的，特別是高科技領域的標的極為稀缺，AI晶片獲得投資易如反掌，一時間冒出來幾百家AI晶片公司，也給投機分子可乘之機。

作為國內最優秀的AI晶片公司，深鑒科技被以3億美元的價格賣給FPGA巨頭賽靈思。

過去兩年，深鑒科技是國內AI晶片領域冉冉升起的一顆明星。

這家2016年3月成立的初創公司目前已完成三輪融資，投資方包括金沙江創投、螞蟻金服、三星風投、賽靈思、聯發科等知名機構和公司。

據媒體報導，其估值遠超過10億美金。

如今以3億美元賣出，並且據稱核心團隊要鎖定4年內不得離開賽靈思。

難道深鑒科技被賤賣？當然沒有！這是因為中國真正優秀的企業太少，而追逐的資本太多，優秀企業的估值已經到了完全沒有理性的地步。

如果這些企業在美國，估值會萎縮數倍以上。

為什麼人工智慧ASIC要賠錢？

人工智慧算法不大可能用ASIC，因為ASIC的開發周期太長，最少也需要3年才能量產，而人工智慧算法疊代速度很快，幾乎是每半年就疊代一次，所謂人工智慧ASIC，沒出廠就已經過時。

另一個原因是人工智慧晶片需要7納米工藝。

7納米時代，不是90納米時代，除非你像谷歌的TPU那樣自產自銷，否則，鐵定長期虧損。

根據Gartner推算，10納米晶片的總設計成本約為1.2億美元，7納米晶片則為2.71億美元，較10納米高出兩倍之多！為什麼人工智慧晶片一定要用7納米？

所謂製程納米，是CMOS FET電晶體閘極的寬度，也就是閘長。

閘長可以分為光刻閘長和實際閘長，光刻閘長則是由光刻技術所決定的。

由於在光刻中光存在衍射現象以及晶片製造中還要經歷離子注入、蝕刻、等離子沖洗、熱處理等步驟，因此會導致光刻閘長和實際閘長不一致的情況。

另外，同樣的製程技術下，實際閘長也會不一樣，比如雖然三星也推出了 14nm 製程晶片，但其晶片的實際閘長和 Intel 的 14nm 製程晶片的實際閘長依然有一定差距。

閘長越短，有兩大好處，一是可以提高電晶體密度，在同樣大小的矽晶圓製造更多的電晶體，需要的運算資源越強，對應的電晶體數量就越多。

英偉達的Xavier Tegra處理器號稱是「全球第一個AI汽車超級晶片」，將採用台積電16nm FinFET+工藝製造，集成多達70億個電晶體，性能方面，Xavier預計可以達到30 DL TOPS，比現在的Drive PX 2平台提高50％，同時功耗只有30W。

擁有多達八個NVIDIA自主設計的ARMv8-A 64位CPU核心，GPU則會基於下一代「Volta」(伏特)架構，最多512個流處理器，還有基於硬體的視頻流編碼解碼器，最高支持7680×4320 8K解析度，以及各種IO輸入輸出能力。

英偉達還有一片GTX 1080 TI，同樣採用台積電16nm FinFET+工藝製造，集成多達120億個電晶體，矽片面積是471平方毫米。

英特爾至強E5 2600 V4，引入了14nm工藝，456平方毫米的核心面積里集成了72億個電晶體，相比之下上代22nm Haswell-EP Xeon E5-2600 v3隻有56.9億個電晶體，而核心面積達662平方毫米。

英偉達專為深度學習訂做的晶片Tesla P100，則在600平方毫米內集成了150個電晶體，仍然是台積電的16nm FinFET+工藝製造，單精度浮點運算能力達9.3TFLOPS。

高通的驍龍835則是集成了30億個電晶體。

另一個好處是降低功耗。

電流從 Source（源極）流入 Drain（漏級），Gate（閘極）相當於閘門，主要負責控制兩端源極和漏級的通斷。

電流會損耗，而柵極的寬度則決定了電流通過時的損耗，表現出來就是手機常見的發熱和功耗，寬度越窄，功耗越低。

業內公認，10納米不是關鍵，關鍵是7納米，10納米只是低功耗過渡工藝，性能上與14納米相差無幾，意義不大，7納米才是關鍵之戰。

ASIC性能與功耗比最好，但開發周期長，開發成本最高，靈活性最差，如果出貨量低的話（如果採用7納米工藝，最低也要每年1億的出貨量，才能將晶片單價降低到100美元以下），要麼單價高到幾千美元，要麼廠家毛利率就是負的。

最終結果都一樣，長期虧損。

無人車領域將是ASIC的噩夢，汽車領域對價格非常敏感，有些汽車廠家為了省成本，幾元錢的搖窗電機都要節約。

能用商規元件就不用工規，成本也就差幾元。

再有就是汽車出貨量低，全球汽車市場每年不過1億輛，遠不能和手機與筆記本電腦比。

高端車出貨量更低，每年大約1000萬輛，無人車比高端車還要低。

即便你市場占有率再高，出貨量也是很低。

再有就是生命周期在縮短，以前一個車型可以有7-8年生命周期，現在競爭激烈，尤其中國市場，三四年不大改款的車就無人問津。

雖然相對手機市場生命周期還算長，但趨勢已經很明顯，一款車型的生命周期正在迅速縮短。

台積電會把你的訂單放到最後一個

晶片代工領域，台積電拿下所有的7納米訂單，包括獨家供應蘋果的A12，這也是台積電首次超越英特爾成為半導體製造工藝最先進的廠家，像人工智慧這種強調運算能力的數字類邏輯晶片，先進工藝是必須採用的。

所以說台積電也拿下了所有人工智慧晶片訂單，三星毫無能力搶單。

韓國媒體報導三星的7奈米拿下高通驍龍855手機晶片訂單，消息應為誤傳。

高通還是會把90%訂單交給台積電，只把10%產品轉向三星，實際是為了降低供應鏈風險採取的策略。

台積電自然會優先照顧蘋果、高通、AMD、英偉達、華為、聯發科這些出貨量上億的大客戶，把小客戶訂單排在最後，這對Mobileye來說也非常不利。

對於台積電來說，與一個大客戶合作需要的精力和一個小客戶合作所需要的精力是一致的，台積電自然要優先照顧大客戶。

三星一直是低價搶單，但目前來看，客戶完全不認同，比如華為，原本外界預估，因為台積電代工費用較高，因此麒麟 710 處理器選擇三星的 10 奈米 LPP 製程來生產製造。

但是，如今根據華為官方公布的結果，麒麟 710 處理器仍舊由台積電的 12 奈米製程來進行代工生產，而非原先傳出的三星 10 奈米製程。

顯示之前一直傳三星以較低價格搶單的情況，並沒有發生任何功效。

最新的 EUV 曝光機一台價格超過 1 億歐元，是 DUV 曝光機價格的 2 倍多，且使用 EUV 曝光機批量生產時會消耗 150萬瓦電力，遠超過現有的 DUV 曝光機。

最重要是EUV技術不夠成熟，且成本略高，而三星欲速則不達，為了超越台積電，導入EUV技術，台積電仍然是DUV技術。

當然，等EUV成熟，台積電也會用。

為何台積電總能在先進位程上屢戰屢勝呢？首先也是最重要的一點，台積電從來不會試圖跳躍式發展，一步一步來，慢不代表錯，快不代表對。

其次不像其他競爭者，與台積電無利益衝突的客戶群（蘋果、賽靈思、英偉達、博通/華高、瑞薩、谷歌、海思、聯發科、AMD等）數量龐大，不斷地追求先進位程，投入研發，改善設計規則，與台積電共同改善製程良率、降低成本，來加快量產速度。

也就是說，台積電不是一個人在戰鬥，台積電背後有著全球所有最頂尖的IC設計公司在支持。

而且台積電有超過50%產能，已完全折舊、做成熟製程；而且五年折舊的新機器設備，約可使用十五年以上，這樣可提供足夠的現金流，來大量投資初期獲利較差的最先進位程。

而三星和英特爾因不具足夠晶圓客戶，三星和英特爾儘量將舊製程轉換成新製程（機器設備多使用三至五年），並利用主流產品（三星的內存，英特爾的中央處理器）現金流，來補助晶圓代工的投資；因此三星會出現虧損，英特爾的營業利潤率和凈利率會遠遠落後台積電。

台積電則使用其優異的布線，來微縮晶片尺寸和加快速度，而不是一味追求最小矽間閘和金屬間閘（metal pitch or interconnects），進行可能威脅順利量產的微縮。

英特爾也深知晶圓代工這個領域與台積電競爭無異於自殺，與台積電合作是雙贏之路。

因此英特爾的FPGA大部分仍然由台積電代工。

FPGA已經不是FPGA，更接近於ASIC

不是短期盈利無望，而是長期盈利無望，賣身給FPGA廠家肯定是最明智的選擇。

在大部分人眼裡，FPGA缺乏技術含量，純粹靠專利建立起護城河，FPGA只是個軀殼，算法才是靈魂。

是深鑒讓FPGA獲得靈魂。

果真如此的話，那估值就不是3億美元。

實際上聲稱有能力做機器學習算法的公司據說超過3000家，而大規模生產FPGA的獨立廠家全球僅Xilinx一家。

算法應該說像人的視覺系統，FPGA則是人的大腦和軀殼。

現在的FPGA早已不是當年的簡單地把寄存器和LUT整合在一起的白紙了，而是越來越像ASIC，或者說SoC。

現在的FPGA都包含了複雜的接口資源，收發器資源，存儲器資源，有些則直接加入了多個ARM內核。

單純的FPGA幾乎不存在了。

以深度學習、高性能運算、圖形科學領域最常見的Kintex FPGA來看，國內百度、騰訊、阿里都採用了KU115做計算加速。

這款FPGA集成了大量資源，包括各種片上存儲器，Xilinx的FPGA中主要有分布式RAM 和 Block RAM 兩種存儲器。

用分布式RAM 時其實要用到其所在的SliceM，所以要占用其中的邏輯資源；而Block RAM 是單純的存儲資源，但是要一塊一塊的用，不像分布式RAM 想要多少bit都可以。

頂級的Virtex系列FPGA更繼承了高達8GB的HBM高寬頻內存。

時鐘方面，有MMCM/PLL。

MMCM(mixed-mode clock manager)：混合模式時鐘管理器，用於在與給定輸入時鐘有設定的相位和頻率關係的情況下，生成不同的時鐘信號。

PLL(phase-locked loop)：鎖相環，主要用於頻率綜合，使用一個PLL可以從一個輸入時鐘信號生成多個時鐘信號。

這些主要用在收發器領域。

KU115里還包含5520個DSP，能夠大幅度提高圖像和視頻類任務的處理速度，這是類似GPU的並行運算架構，可以說這片FPGA還包含一個小GPU。

這個DSP可以對應乘法累加器、乘加器或單步/n步計數器。

級聯多個DSP48E邏輯片可執行複雜的功能。

例如，不使用額外的FPGA架構資源的情況下實現複雜乘法器或n階FIR濾波器。

對某些如FFT運算，速度大大提升。

Virtex系列頂配有12288個DSP，性能達21897GMAC/s。

Xilinx的Soc+FPGA系列產品則完全可以叫SoC了，其不僅包含多個ARM CPU內核，還有針對安全領域的R5內核，還有Mali 400這樣的GPU，最誇張的是RFSoC把射頻的ADC/DAC也集成了，還有SD-FEC。

目前集成電路設計基本上都是用IP核搭積木的形式。

IP核分為行為（Behavior）、結構（Structure）和物理（Physical）三級不同程度的設計，對應描述功能行為的不同分為三類，即軟核（Soft IP Core）、完成結構描述的固核（Firm IP Core）和基於物理描述並經過工藝驗證的硬核（Hard IP Core）。

軟核就是我們熟悉的RTL代碼；固核就是指網表；而硬核就是指指經過驗證的設計版圖。

ARM還是以軟核為主的。

IP軟核（Soft IP Core）：通常是用硬體描述語言（hardware Description Language，HDL）文本形式提交給用戶，它經過RTL級設計優化和功能驗證，但其中不含有任何具體的物理信息。

據此，用戶可以綜合出正確的門電路級設計網表，並可以進行後續的結構設計，具有很大的靈活性，藉助於EDA綜合工具可以很容易地與其他外部邏輯電路合成一體，根據各種不同半導體工藝，設計成具有不同性能的器件。

其主要缺點是缺乏對時序、面積和功耗的預見性。

而且IP軟核以原始碼的形式提供的，IP智慧財產權不易保護。

IP硬核（Hard IP Core）是基於半導體工藝的物理設計，已有固定的拓撲布局和具體工藝，並已經過工藝驗證，具有可保證的性能。

其提供給用戶的形式是電路物理結構掩模版圖和全套工藝文件。

由於無需提供寄存器轉移級（Register transfer level，RTL）文件，因而更易於實現IP保護。

其缺點是靈活性和可移植性差。

IP固核（Firm IP Core）的設計程度則是介於軟核和硬核之間，除了完成軟核所的設計外，還完成了門級電路綜合和時序仿真等設計環節。

一般以門級電路網表的形式提供給用戶。

深鑒只是做了最上層的基於PC的應用算法，要想讓算法在嵌入式系統中流暢運行，還需要大量的工作，而這正是Xilinx做的。

這就好像圖像識別算法，基於PC的幾百家都不止，但要一直到車內的ARM系統上，表現會大大折扣，完全不具備實時性，也就無法應用。

上圖是一個典型的行人識別算法HOG+SVM所需要時間的對比，硬核只需要79.3毫秒，軟核需要3983毫秒，所以純軟核的設計要麼用極簡單的算法，要麼用英偉達貴到飛起的晶片，即便如此，也不能和硬核比。

所以單純的算法公司，特別是複雜視覺處理算法公司如果不能將算法用晶片來承載，那就不可能成功。

當然，融資還是能成功的，畢竟還有很多投資者不是真正懂技術。

來源：佐思產研周彥武

請為這篇文章評分？

2020-08-31

AI晶片可能只是FPGA的附庸

文章推薦指數： 80 %

請為這篇文章評分？

相關文章

最新文章

相關網站資訊

華為被禁原因

無邊無際意思

華為 工廠

相關文章　

華為工廠