產業訊號

護城河不是矽：為什麼 600 萬 CUDA 開發者比任何一顆晶片都難搬走

MI300X 記憶體是 H100 的 2.4 倍、頻寬 1.6 倍、L2 快取頻寬 3.49 倍——但在 128 並發推論的場景，B200 反而比它快 105%。差距不在矽，在 CUDA 十八年累積的組織慣性。

Josh Chen · 2026-07-05 · 閱讀時間 5 分鐘

散戶最容易看漏的一件事，是把 GPU 之間的差距簡化成規格表上的數字。看到 AMD 的 MI300X 記憶體 192GB、頻寬 5.3 TB/s，對照 NVIDIA H100 的 80GB、3.35 TB/s，直覺會得出「AMD 追上了」的結論。Chips and Cheese 的低階基準測試甚至顯示 MI300X 的 L1 快取頻寬是 H100 的 1.6 倍、L2 是 3.49 倍。硬體規格戰場上，AMD 幾乎全面領先。

然而，AIMultiple 在 2026 年上半年公布的 128 並發使用者推論測試裡，NVIDIA B200 的吞吐量比 MI300X 高出 105.3%。硬體全面落後的一方，跑得比對手快一倍。差距不在矽本身，而在包在矽外面的十八年軟體慣性。

CUDA 的鎖定不在 API，在硬體假設

如果 CUDA 只是一組 API，AMD 的 hipify 工具早就能把 CUDA 程式碼自動轉譯到 ROCm 上。實際上這件事一直沒發生，原因藏在一個容易被忽略的技術細節：NVIDIA GPU 的 warp size 是 32，AMD 的 wavefront size 是 64。這不是可以改的參數，而是十幾年來所有 CUDA 核心程式碼裡的硬體假設。

當 hipify 自動把 CUDA 程式碼轉到 ROCm 執行時，任何一個假設「32 執行緒一起同步」的核心，都會在 wavefront 64 上靜默跳過其中 32 個執行緒的執行——程式跑得動、結果卻是錯的、而且工具不會警告你。ROCmPort-AI 這個開源專案在 GitHub 上詳細記錄了這個問題，工程師的結論是：要真的把 CUDA 效能移植過去，必須手寫內嵌的 PTX 組合語言，一個核心一個核心重調。

換句話說：AMD 拿到程式碼、拿到晶片、拿到理論頻寬優勢，但拿不到十八年份的工程師時間。

6 百萬開發者是組織慣性，不是使用者數

NVIDIA 官方在 2026 年公布的數字：全球約有 6 百萬名活躍 CUDA 開發者、40,000 家以上的組織在使用這套技術堆疊。這個數字乍看是「使用者規模」，但真正的鎖定機制不在使用者本身，而在包裹使用者的組織結構——大學課程用 CUDA 教平行運算、期刊論文的效能基準用 CUDA 跑、招募 AI 工程師的 job description 寫「CUDA 經驗必備」、風險投資評估 AI 新創時看團隊的 CUDA 資歷。

這是 1990 年代 Microsoft Win32 API 支配桌面應用軟體生態的完全類比。當一整個世代的工程師都在同一套 API 上培養能力、寫論文、換工作，這條護城河就不再只是技術問題，而是社會學問題——競爭者面對的不是「重寫程式碼」，而是「重建整個人力資本形成流程」。

200 億美元收購 Groq，是防禦，也是進攻

2025 年 12 月，NVIDIA 以 200 億美元的資產與授權交易（不是股權併購）拿下 Groq 的 IP 與人才，並在 GTC 2026 上把 Groq 的 SRAM-based LPU 整合成 Vera Rubin 平台裡的「Groq 3 LPX」機櫃。這是一個訊號很明確的動作：Groq 的 LPU 架構本來有機會顛覆 GPU 主導的推論典範，NVIDIA 選擇把它整個買下來，讓 Groq 的技術優勢變成 CUDA 生態的內部組件，而不是外部威脅。

同一份 GTC 2026 揭露的異質架構效能：當 LPU 處理解碼、Rubin GPU 專注 prefill 與訓練，兆參數模型的每 MW 推論吞吐可以提升最高 35 倍。這個數字需要謹慎看待——它出自 NVIDIA 官方開發者部落格的宣稱，目前沒有獨立第三方驗證——但收購案的策略邏輯本身是清楚的：與其等 Groq 成為外部威脅，不如把它吸收進 CUDA 的生態半徑內。

這條護城河的裂縫

不過 CUDA 的鎖定並非沒有破口。Google 在 TPU v6e（Trillium）上完全繞開了 CUDA——用 JAX + XLA 自己的軟體堆疊——在 4096-token 上下文的推論場景，兩台 TPU v6e-8 的吞吐比兩顆 H100 高 66%、TTFT（首個 token 生成時間）快 23.6 倍，而 SDXL 圖像生成的推論成本被壓到每 1000 張 0.22 美元。這代表在特定工作負載下，繞開 CUDA 不但可行、還便宜。

更值得留意的是華為在 2026 年 3 月推出的昇騰 950PR，官方對外的敘事出現一個關鍵轉折：宣稱「更高的 CUDA 相容性」。年產目標 75 萬顆、DDR 版本約 5 萬人民幣、HBM 版本約 7 萬，字節跳動與阿里已下大單。這句話如果為真，意味著 CUDA 從「不可搬走的鎖」變成「可以順道搭乘的橋」——競爭者不再對抗 CUDA，而是騎在 CUDA 上出貨。這個轉換的技術細節目前只有中文原始報導揭露，尚缺獨立技術驗證，但方向本身值得追蹤。

另一個值得誠實揭露的資料限制：NVIDIA 那個「35x 每 MW 推論吞吐」的數字，目前只有一份 NVIDIA 官方部落格引用可查，並沒有第三方獨立測試結果。品牌敘事型的數字要打折看，這是研究紀律。

給讀者的框架

判斷任何軟體生態護城河的耐久度時，四個問題比使用者數更有解釋力：

鎖定發生在 API 層、還是硬體假設層？ API 可以被自動翻譯工具攻破，硬體假設不行——warp=32 vs wavefront=64 是十幾年份的隱性負債。
組織慣性有沒有被學術、招募、教育三個管道同時鎖定？ 三管齊下才能形成類 Win32 的長期鎖定；只有其中之一是短期鎖定。
龍頭遇到潛在破壞式競爭者時，是花錢收購還是硬碰硬？ 收購後整合進生態代表策略成熟，也代表破口確實存在。
競爭者是選擇繞開還是相容？ 繞開（Google TPU）需要另建整套生態、成本極高；宣稱相容（華為 950PR）如果為真、傷害更大——因為它意味著鎖不再是鎖。

這四個問題適用於任何軟體平台型的護城河，遠不只 CUDA 一家。

免責聲明

本文為個人研究與框架分享，內容基於公開資訊與作者獨立分析，不構成投資建議，不涉及對特定有價證券的推介、代操或收費諮詢服務。投資決策應由讀者獨立做出，並考量自身財務狀況、投資目標與風險承受能力。過往績效不代表未來表現，投資有賺有賠，申購前應詳閱公開說明書。