產業訊號

護城河不是矽:為什麼 600 萬 CUDA 開發者比任何一顆晶片都難搬走

MI300X 記憶體是 H100 的 2.4 倍、頻寬 1.6 倍、L2 快取頻寬 3.49 倍——但在 128 並發推論的場景,B200 反而比它快 105%。差距不在矽,在 CUDA 十八年累積的組織慣性。

散戶最容易看漏的一件事,是把 GPU 之間的差距簡化成規格表上的數字。看到 AMD 的 MI300X 記憶體 192GB、頻寬 5.3 TB/s,對照 NVIDIA H100 的 80GB、3.35 TB/s,直覺會得出「AMD 追上了」的結論。Chips and Cheese 的低階基準測試甚至顯示 MI300X 的 L1 快取頻寬是 H100 的 1.6 倍、L2 是 3.49 倍。硬體規格戰場上,AMD 幾乎全面領先。

然而,AIMultiple 在 2026 年上半年公布的 128 並發使用者推論測試裡,NVIDIA B200 的吞吐量比 MI300X 高出 105.3%。硬體全面落後的一方,跑得比對手快一倍。差距不在矽本身,而在包在矽外面的十八年軟體慣性。

CUDA 的鎖定不在 API,在硬體假設

如果 CUDA 只是一組 API,AMD 的 hipify 工具早就能把 CUDA 程式碼自動轉譯到 ROCm 上。實際上這件事一直沒發生,原因藏在一個容易被忽略的技術細節:NVIDIA GPU 的 warp size 是 32,AMD 的 wavefront size 是 64。這不是可以改的參數,而是十幾年來所有 CUDA 核心程式碼裡的硬體假設。

當 hipify 自動把 CUDA 程式碼轉到 ROCm 執行時,任何一個假設「32 執行緒一起同步」的核心,都會在 wavefront 64 上靜默跳過其中 32 個執行緒的執行——程式跑得動、結果卻是錯的、而且工具不會警告你。ROCmPort-AI 這個開源專案在 GitHub 上詳細記錄了這個問題,工程師的結論是:要真的把 CUDA 效能移植過去,必須手寫內嵌的 PTX 組合語言,一個核心一個核心重調。

換句話說:AMD 拿到程式碼、拿到晶片、拿到理論頻寬優勢,但拿不到十八年份的工程師時間。

6 百萬開發者是組織慣性,不是使用者數

NVIDIA 官方在 2026 年公布的數字:全球約有 6 百萬名活躍 CUDA 開發者、40,000 家以上的組織在使用這套技術堆疊。這個數字乍看是「使用者規模」,但真正的鎖定機制不在使用者本身,而在包裹使用者的組織結構——大學課程用 CUDA 教平行運算、期刊論文的效能基準用 CUDA 跑、招募 AI 工程師的 job description 寫「CUDA 經驗必備」、風險投資評估 AI 新創時看團隊的 CUDA 資歷。

這是 1990 年代 Microsoft Win32 API 支配桌面應用軟體生態的完全類比。當一整個世代的工程師都在同一套 API 上培養能力、寫論文、換工作,這條護城河就不再只是技術問題,而是社會學問題——競爭者面對的不是「重寫程式碼」,而是「重建整個人力資本形成流程」。

200 億美元收購 Groq,是防禦,也是進攻

2025 年 12 月,NVIDIA 以 200 億美元的資產與授權交易(不是股權併購)拿下 Groq 的 IP 與人才,並在 GTC 2026 上把 Groq 的 SRAM-based LPU 整合成 Vera Rubin 平台裡的「Groq 3 LPX」機櫃。這是一個訊號很明確的動作:Groq 的 LPU 架構本來有機會顛覆 GPU 主導的推論典範,NVIDIA 選擇把它整個買下來,讓 Groq 的技術優勢變成 CUDA 生態的內部組件,而不是外部威脅。

同一份 GTC 2026 揭露的異質架構效能:當 LPU 處理解碼、Rubin GPU 專注 prefill 與訓練,兆參數模型的每 MW 推論吞吐可以提升最高 35 倍。這個數字需要謹慎看待——它出自 NVIDIA 官方開發者部落格的宣稱,目前沒有獨立第三方驗證——但收購案的策略邏輯本身是清楚的:與其等 Groq 成為外部威脅,不如把它吸收進 CUDA 的生態半徑內。

這條護城河的裂縫

不過 CUDA 的鎖定並非沒有破口。Google 在 TPU v6e(Trillium)上完全繞開了 CUDA——用 JAX + XLA 自己的軟體堆疊——在 4096-token 上下文的推論場景,兩台 TPU v6e-8 的吞吐比兩顆 H100 高 66%、TTFT(首個 token 生成時間)快 23.6 倍,而 SDXL 圖像生成的推論成本被壓到每 1000 張 0.22 美元。這代表在特定工作負載下,繞開 CUDA 不但可行、還便宜。

更值得留意的是華為在 2026 年 3 月推出的昇騰 950PR,官方對外的敘事出現一個關鍵轉折:宣稱「更高的 CUDA 相容性」。年產目標 75 萬顆、DDR 版本約 5 萬人民幣、HBM 版本約 7 萬,字節跳動與阿里已下大單。這句話如果為真,意味著 CUDA 從「不可搬走的鎖」變成「可以順道搭乘的橋」——競爭者不再對抗 CUDA,而是騎在 CUDA 上出貨。這個轉換的技術細節目前只有中文原始報導揭露,尚缺獨立技術驗證,但方向本身值得追蹤。

另一個值得誠實揭露的資料限制:NVIDIA 那個「35x 每 MW 推論吞吐」的數字,目前只有一份 NVIDIA 官方部落格引用可查,並沒有第三方獨立測試結果。品牌敘事型的數字要打折看,這是研究紀律。

給讀者的框架

判斷任何軟體生態護城河的耐久度時,四個問題比使用者數更有解釋力:

  1. 鎖定發生在 API 層、還是硬體假設層? API 可以被自動翻譯工具攻破,硬體假設不行——warp=32 vs wavefront=64 是十幾年份的隱性負債。
  2. 組織慣性有沒有被學術、招募、教育三個管道同時鎖定? 三管齊下才能形成類 Win32 的長期鎖定;只有其中之一是短期鎖定。
  3. 龍頭遇到潛在破壞式競爭者時,是花錢收購還是硬碰硬? 收購後整合進生態代表策略成熟,也代表破口確實存在。
  4. 競爭者是選擇繞開還是相容? 繞開(Google TPU)需要另建整套生態、成本極高;宣稱相容(華為 950PR)如果為真、傷害更大——因為它意味著鎖不再是鎖。

這四個問題適用於任何軟體平台型的護城河,遠不只 CUDA 一家。


免責聲明

本文為個人研究與框架分享,內容基於公開資訊與作者獨立分析,不構成投資建議,不涉及對特定有價證券的推介、代操或收費諮詢服務。投資決策應由讀者獨立做出,並考量自身財務狀況、投資目標與風險承受能力。過往績效不代表未來表現,投資有賺有賠,申購前應詳閱公開說明書。