10 多年來,輝達在生產能夠執行複雜 AI 任務的晶片方面,建立了幾乎無法撼動的領先地位,但近期隨著Google、IBM 等巨頭開始在晶片方面一齊發力,GPU 領域的競爭格局,開始有了微妙的改變。本文源自 SinoDAO 的文章《英偉達的江山,還能坐多久?》,由Foresight News整理。
(前情提要:Nvidia的AI晶片H100有多神?為何一片難求?)
(背景補充:AMD的AI野心「沒人買帳」?NVIDIA的護城河已鑄成)
當下的 AI 賽場上,輝達無疑是最閃耀的一顆明星。
十多年來,輝達在生產能夠執行複雜 AI 任務(如影象、面部和語音識別)的晶片方面,建立了幾乎無法撼動的領先地位。
然而,凡事總有變化。
近期,隨著Google、IBM 等巨頭開始在晶片方面一齊發力,GPU 領域的競爭格局,開始有了些微妙的改變。
最近,IBM 推出一款全新的 14nm 模擬 AI 晶片,效率達到了最領先 GPU 的 14 倍。
其最大的亮點,就是藉助神經網路在生物大腦中執行的關鍵特徵,來減少能耗。從而最大限度地減少人們在計算上花費的時間和精力。
同樣的,身為科技巨頭的 Google,也在 8 月底的 GoogleCloudNext2023 大會上,釋出了一款全新 AI 晶片 CloudTPUv5e,專為大模型訓練推理所設計。
具體來說,CloudTPUv5e 允許多達 256 個晶片互連,聚合頻寬超過 400Tb/s 和 100petaOps 的 INT8 效能。
根據速度基準測試,在 CloudTPUv5e 上訓練和執行人工智慧模型的速度提高了 5 倍。
由此可見,各大巨頭其實並不甘於在算力問題上永遠被輝達「卡脖子」,並開始紛紛推出了各自的晶片,對輝達的 GPU 霸權地位發起了「圍攻」。
那麼,在輝達深不見底的護城河面前,這樣的挑戰前景究竟如何?
「霸主」的遠慮
輝達的江山還能坐多久?
從某種程度上說,決定這件事的,不僅僅是輝達本身的創新能力,還有科技發展固有的定律。
作為電腦行業的黃金定律,摩爾定律一直指導著晶片開發。
但是隨著晶片工藝升級速度的放緩,圍繞在這一定律身上的爭議也在不斷擴大。
所謂摩爾定律,指的是積體電路上可以容納的電晶體數目在大約每經過 18 個月到 24 個月便會增加一倍。
然而,隨著晶片技術的不斷發展,摩爾定律正逐漸遭遇瓶頸。
CIC 灼識諮詢曾披露,受制於晶片尺寸的物理極限、光刻技術、隧道效應、功耗和散熱、供電能力等問題,從 5nm 到 3nm 再到 2nm,其間隔都超過了 2 年時間。
面對這種情況,即使是以「刀法精湛」著稱的黃仁勳,也不得不無奈地宣佈「摩爾定律已死」,漲價身不由己!
其在去年釋出的 AD102(RTX4090) 晶片,尺寸為 608mm,這僅比 628mm 的 GA102(RTX3090Ti)略小。
按照這樣的技術路徑,傳統 GPU 的天花板,似乎已經越來越近。
也正因如此,各路巨頭在解決算力之困的同時,也在積極地「另闢蹊徑」,找到一條有別於傳統路線的破局之策。
前面提到的 IBM 模仿人腦神經結構的類腦晶片,就是這樣的嘗試之一。
然而,在面對傳統晶片瓶頸方面,業界存在著很多種不同的方案,比如量子晶片、光子晶片、類腦晶片,但如同當年 GPU 取代 CPU,成為今天 AI 計算的主力一樣,在多種技術路徑的博弈中,最終往往會有一個「最優」的路徑勝出,成為新時代通用的晶片正規化。
而這樣的「最優」路徑,則理應是一種在技術成熟度、通用性和市場需求等方面,都做到了較好兼顧的一種方案。
就目前的情況來看,量子晶片、光子晶片、類腦晶片等都還處於研發階段,其技術成熟度還有待實踐的檢驗。
此外,量子晶片、光子晶片、類腦晶片等都是針對特定的計算問題而設計的,其在通用性、相容性上,往往還存在著一定的不足,
例如量子晶片適合解決一些經典電腦難以解決的重要問題。光子晶片適合解決一些高速資料處理和傳輸的問題,如光通訊、光互連、光計算等。
而綜合比較下來,目前最有可能勝出的方案,則是多種晶片模組組合的超異構計算。
新的賽道
什麼是超異構計算?
簡單來說,就像是一個拼圖遊戲,把不同的晶片模組(如 CPU、GPU、FPGA 等)按照不同的規則和目標來拼接,形成不同的計算方案。從而處理不同型別的資料和工作負載的技術。
超異構計算的目的是實現計算的最優化,即在效能、功耗、延遲等方面達到最佳的平衡。
- 在 CPU 同構計算階段,100% 工作由 CPU 完成;
- 但在 GPU 異構階段,80% 工作由 GPU 完成,CPU 只完成剩餘的 20% 的工作;
- 而在超異構計算階段,則 80% 的工作由各類更高效的 DSA 完成,GPU 只完成剩餘 20% 工作的 80%,即 16% 的工作,剩餘的 4% 交給 CPU。
這裡的 DSA,是一種針對特定領域和場景的計算單元,可以實現高效的資料處理和演算法加速。例如神經網路處理器(NPU)、圖形處理器(GPU)、數位訊號處理器(DSP)、視覺處理器(VPU)、安全處理器(SPU)等 。
這些「術業有專攻」的特定晶片可以比傳統的 GPU 更快、更省電、更小巧、更靈活。
但同時,由於高度特化的 DSA 不太適合做其他方面的工作。所以,還需要用到一些 GPU 和 CPU 來輔助和協調這些晶片,完成剩下的一些計算工作。
這樣,在「專人專職」的分工搭配下,晶片就可以實現計算的最優化,即在效能、功耗、延遲等方面達到最佳的平衡。
在面對 AI 大模型、自動駕駛、元宇宙等新興的領域和應用場景時,AI 要做的事情越來越多,越來越難,而傳統的同構晶片已經跟不上 AI 的步伐,難以給 AI 提供足夠的算力和速度。
而超異構計算可以提供更高的靈活性和可擴展性,能夠根據不同的資料和工作負載,動態地分配和排程計算資源,實現計算的自適應和智慧。
具體來說,超異構計算可以分為兩種模式:靜態超異構計算和動態超異構計算。
- 靜態超異構計算,是指在設計階段就確定好各個處理器之間的分工和協作方式,適用於一些穩定且可預測的場景,如視訊編解碼、影象處理等;
- 動態超異構計算是指在執行時根據即時資料和工作負載來動態地選擇和排程最合適的處理器,適用於一些更具變化的場景,如雲計算、邊緣計算、物聯網等;
通過這類「動靜結合」的方式,超異構計算就能靈活調整負載,實現高效地算力排程。
除此之外,從成本上說,超異構計算同樣是一種有效降低大算力晶片成本的方案。
隨著傳統 GPU 晶片尺寸的不斷縮小,人們就需要更多的研發投入和更精密的製造裝置,這就導致了成本的上升。
知名半導體研究機構 Semiengingeering 統計了不同工藝下晶片所需費用,其中 7nm 節點需要的費用已經達到了 2.97 億美元;但超異構計算,卻憑藉多種晶片間靈活的分工、協作,巧妙地解決了這一難題。
用一個形象的比喻來說,傳統 GPU 晶片就像是一輛跑車,要想讓它跑得更快,就需要不斷地改進發動機、輪胎、剎車等部件,因而製造成本會成倍上升。
而超異構計算就像是一輛多功能汽車,它可以根據不同的路況和需求,切換不同的驅動模式,如越野、運輸、載客等,如此一來,就不用一味地改進發動機(縮小晶片尺寸)來提高效能了。
彎道超車
正是由於這樣的優勢,超異構計算不僅突破了傳統 GPU 的瓶頸,並且也對了國產大算力晶片提供了「彎道超車」的歷史時機。
就目前來看,在超異構計算的賽道上,輝達等巨頭的佈局也非常積極和全面,推出了 Hopper 超級晶片,與 GraceCPU 和 BluefieldDPU 整合,構成一個完整的超異構系統。
但國內廠商也同樣開始在這一方向進行了發力,如華為推出了鯤鵬 920 處理器,這是一款基於 ARM 架構的高效能 CPU,可以與華為自研的昇騰 AI 晶片和崑崙 AI 晶片實現異構協同,支援雲、邊、端等多種場景。
還有一些國內廠商也在研發自己的超異構晶片,例如紫光展銳推出了虎賁 T7520 處理器,這是一款集成了 CPU、GPU、NPU、ISP 等多種計算單元的超異構晶片,專為 5G 終端而設計。
從總體來說,超異構計算是否會給國內晶片廠商提供彎道超車的機會,主要取決於以下幾個因素:
- 國內晶片廠商在不同型別的計算單元上的技術水平和競爭力,例如 CPU、GPU、DPU、FPGA 等,以及它們之間的協同和優化能力。
- 國內晶片廠商在高速互連和先進封裝方面的創新能力和成本控制能力,例如 2.5D 和 3D 堆疊技術,以及對不同工藝節點和架構的相容性和可擴充套件性。
- 國內晶片廠商在統一軟體平臺方面的開發能力和生態建設能力,例如支援多種異構裝置的程式設計框架和管理平臺,對不同場景和應用的適配能力。
在這三個方面,目前的國內企業雖然有一定的探索和進展,但總體而言,仍面臨不小的挑戰。
例如,不同型別的計算單元上的技術水平上,國內仍存在著一定的短板,例如華為的鯤鵬 920 處理器雖然在效能上有所提升,但是在相容性和生態方面還有不足。
在高速互連和先進封裝方面,對於 2.5D 和 3D 堆疊等關鍵技術,目前國內晶片廠商還沒有完全掌握,並且還依賴於國外供應商。
而目前國內廠商目前突破最大,也最具潛力的方向,是軟體平臺的開發能力上。
因為,超異構計算的硬體多樣性和複雜性,給開發者帶來了很大的挑戰。
如果有一個統一的軟體平臺,可以遮蔽底層的細節,提供高效的編譯、排程、優化等功能,那麼就可以大大降低開發者的負擔,提高超異構計算的可用性和普及性。
現階段,阿里雲的異構計算產品家族,包括 GPU 雲伺服器、FPGA 雲伺服器和彈性加速計算例項 EAIS 等,提供了一系列的異構計算服務和解決方案。
而華為的 Atlas 異構計算平臺,基於自研的昇騰 AI 處理器,也提供了從晶片到雲服務的全棧異構計算解決方案。
綜合以上各種因素,以及輝達自身的研發能力這一「動態變數」進行考慮,未來晶片市場的競爭格局,大致會呈現如下態勢:
國內晶片廠商未來 5 年在超異構計算上的競爭水平,會有一定程度的提升和突破,解決部分算力「卡脖子」問題,但是還無法完全擺脫對輝達等國外巨頭的依賴。
在一些特定的場景和應用上,國內晶片廠商可以與輝達等巨頭形成有效的競爭,例如在 5G、物聯網、邊緣計算等領域,國內晶片廠商可能會推出更適合本地化需求和環境的超異構計算解決方案。
可以說,超異構計算,確實為國產晶片的「算力之困」撕開了一道口子,但從長遠來看,要想完全解決「卡脖子」問題,並與輝達等巨頭形成對等競爭,仍是一個任重道遠的過程。
📍相關報導📍
Nvidia遭殃!美國擬禁令AI晶片輸出中東,完成金磚國封鎖網