i

TLDR(太長不讀)

面對 AI 帶來的龐大算力需求,Google 耗時十多年秘密研發專用 AI 晶片「張量處理器(TPU)」。相較於 NVIDIA GPU 的通用性,TPU 以「脈動陣列」架構專攻矩陣乘法,捨棄多餘功能以換取極致的能效比。雖然 NVIDIA 憑藉深厚的 CUDA 軟體生態系穩居市場霸主,但 Apple 與 Meta 等科技巨頭為避免算力資源受制於單一供應商,已開始大舉轉用 TPU。這場底層基礎設施的激烈角力,正持續壓低 AI 的運算成本,最終將使一般消費者受惠。

Google 為何被迫走上自研 AI 晶片之路?

在大型語言模型(LLM)成為顯學之前,Google 內部便已察覺到潛在的算力危機。2013 年,由 Jeff Dean 領軍的 Google Brain 團隊發現,若僅是讓全球使用者每天使用三分鐘的語音搜尋功能,Google 資料中心的算力需求就會直接翻倍。若繼續依賴傳統 CPU 的通用計算路徑,硬體擴建成本將呈現指數型的失控增長。

為了解決這個瓶頸,Google 採取了「明修棧道,暗渡陳倉」的策略。一方面砸重金買下 AI 教父 Geoffrey Hinton 麾下的 AlexNet 團隊,並向 NVIDIA 大舉採購 GPU;另一方面則秘密啟動了名為「張量處理器(TPU)」的硬體專案,試圖從零打造完全為 AI 定製的底層算力架構。

TPU、CPU 與 GPU 的架構定位差異

要理解 TPU 為什麼強大,必須先釐清它與傳統晶片在設計哲學上的根本不同:

晶片類型 角色比喻 運算特性 適用場景 原始連結
CPU 特級大廚 具備高度通用性,能處理複雜邏輯,但不擅長大規模平行任務。 作業系統運行、一般軟體處理。 [影片 04:46]
GPU 數百名普通廚師 擅長高平行運算,能同時處理大量簡單與重複性的任務。 圖形渲染、通用機器學習與訓練。 [影片 04:56]
TPU 自動切片機 特殊應用積體電路(ASIC),完全捨棄通用性,專精單一任務。 大規模矩陣乘法、AI 深度學習推論。 [影片 05:14]

TPU 架構的核心靈魂在於脈動陣列(Systolic Array)。傳統 CPU 每次執行加法運算時,都必須反覆向記憶體存取數據;而 TPU 的脈動陣列如同工廠流水線,數據如同波浪般在計算單元之間傳遞,上游算完直接接力給下游,幾乎消除了空轉與頻繁的記憶體讀取延遲。這讓第一代 TPU 在推論任務上的能效比,硬生生超越了當時的 GPU 達 30 到 80 倍。

從單一晶片到超級電腦:TPU 的技術演進

隨著 AI 模型的參數量飆升,單顆晶片已無法滿足需求,Google 迅速將 TPU 的開發思維轉向「系統級別」的巨型 AI 算力網路(Pod):

  • 突破資料吞吐瓶頸:導入高頻寬記憶體(HBM),確保龐大的訓練數據能及時餵給計算陣列。
  • 首創 BF16 數值格式:發明 bfloat16 格式,在犧牲少量精度的情況下保留與 FP32 相仿的動態範圍,大幅降低了訓練成本,現已成為業界的標準配備。
  • 動態光路交換技術:自第四代起採用微鏡片陣列來動態調整網路拓撲,讓數千顆 TPU 能以極低延遲連動。最新第七代(Ironwood)更可提供高達 4.6 PFlops 算力,專為 Gemini 這類複雜的 AI Agent 量身打造。

NVIDIA 霸權的反撲與算力市場的未來

儘管硬體性能剽悍,為何大眾所熟知的 AI 晶片代名詞仍是 NVIDIA?關鍵在於軟體生態系

NVIDIA 苦心經營十餘年的 CUDA 平台,讓全球開發者產生了深度的路徑依賴。相比之下,TPU 的編譯器(如 XLA)學習門檻極高,且長期封閉於 Google 內部,錯失了擁抱開源社群的黃金期。此外,NVIDIA 更出手收購了由 TPU 早期核心人物 Jonathan Ross 創辦的 Groq 公司,試圖從內部瓦解 TPU 的架構護城河。

然而,科技巨頭們絕不允許算力市場被單一玩家壟斷。包含 Apple(據傳其 Apple Intelligence 模型全面基於 TPU 訓練)與 Meta 等頂級企業,紛紛投入數十億美元大舉採購或租賃 TPU 資源。這場神仙打架的算力軍備競賽,正持續推動基礎設施系統的進化。不論最終誰主沉浮,AI 運算成本的跳水式下降,都將讓普羅大眾成為最大的受益者。

參考資料與引用

關於作者

作為一名深耕 AI 基礎設施與演算法發展的分析人員,我深知在現代科技戰中,「算力即國力」。Google TPU 的發展不僅是一部令人驚嘆的晶片進化史,更是科技巨頭在「通用」與「專用」架構間來回博弈的經典商業教材。看到更多企業選擇打破壟斷、擁抱多元算力,我相信這將是推動 AI 技術真正平民化的關鍵推力。