輝達架構演進史與NV Link Switch

輝達架構演進史與NV Link Switch¶

看完 NVIDIA 執行長黃仁勳的演講，對於 AI 基礎建設的未來藍圖深受啟發，也激起我對這家公司背後技術演進的好奇。於是我開始回顧輝達一路走來的晶片發展歷程，從早期的圖形處理器到今日支撐全球 AI 發展的核心運算平台，每一代產品都見證了技術的突破與願景的實現。這不僅是一段硬體創新的歷史，更是一場推動 AI 革命的長征。

2006 年：CUDA 架構 (Compute Unified Device Architecture)

CUDA 是一個並行運算平台和程式設計模型，讓開發者能夠利用 NVIDIA GPU 的平行運算能力來加速各種運算密集型任務，跳脫圖形處理，為後來的 AI 革命奠定了基礎。
CUDA主要貢獻是讓開發者從較為小眾的圖形語言中解放，開發者只要用通用的C++/python編寫程式，CUDA編譯器會負責處理圖形語言的部分，擴大受眾。
代表性產品：早期的 Tesla 系列產品（如下所述）是基於支援 CUDA 的 GPU。
2008 年：Tesla 系列
重要性： Tesla 成為 NVIDIA 專為高效能運算 (HPC) 和資料中心設計的 GPU 產品線品牌。這些 GPU 具備強大的浮點運算能力和高記憶體頻寬，非常適合科學計算和早期的 AI 工作負載。這時候能源效率較差，耗能。
與 CUDA 的關聯： Tesla 系列 GPU 支援 CUDA，使得研究人員和開發者能夠利用 GPU 的平行運算能力進行複雜的計算。
代表性產品： Tesla C870、Tesla C1060 等。
2012 年：Kepler 架構
重要性： Kepler 架構在提升 GPU 的能源效率和通用運算能力方面取得了顯著進展。它引入了新的 SMX (Streaming Multiprocessor eXtreme) 單元，提高了每個時脈週期的效能。換句話說，更加節能。
對 AI 的影響： Kepler 架構的改進使得 GPU 在深度學習方面的應用更具效率。例如，它在單精度浮點運算方面有很好的效能，這對於許多機器學習演算法至關重要。
代表性產品： GeForce 600 和 700 系列的部分型號，以及 Tesla K10、K20 等。
2016 年：Pascal 架構
重要性： Pascal 架構是輝達在深度學習領域的一個重要轉捩點。它引入了 NVLink 高速互連技術，並針對深度學習進行了優化，例如提升了半精度浮點運算 (FP16) 的效能。
對 AI 的影響： NVLink 相較於PCIe 主要的連接都需要透過CPU，NVLink的引入使得多 GPU 系統能夠更有效地協同工作，加速了更大型、更複雜的 AI 模型的訓練。並且當時的NV Link也比對應時代下的PCIe 3.0要快速。Pascal 架構也為後來的 Tensor Core 的發展奠定了基礎。
代表性產品： GeForce 10 系列，以及 Tesla P100、P40 等。Tesla P100 首次在資料中心級別引入了 NVLink。
Volta (2017)
重要性： Volta 架構最關鍵的創新是首次引入了 Tensor Core。這些專用的硬體單元旨在加速深度學習中常見的混合精度矩陣乘法和累加運算。
對 AI 的影響： Tensor Core 的出現大幅提升了深度學習模型的訓練和推論效能，尤其是在處理大型矩陣運算時。這使得訓練更複雜的模型和更快地進行推論成為可能，是 AI 發展的一個重要里程碑。
代表性產品： Tesla V100。
Turing (2018)
重要性： Turing 架構延續了 Tensor Core 的發展，進一步提升其效能。此外，Turing 還加入了 RT Core，專門用於加速即時光線追蹤。
對 AI 的影響：雖然 RT Core 主要用於圖形渲染，但 Turing 延續的 Tensor Core 進一步加速了 AI 運算。這也展現了輝達在硬體中整合特定加速單元的策略，即使最初目標不是 AI，這些單元也可能在未來被用於 AI 相關應用。
代表性產品： GeForce RTX 20 系列、Tesla T4。
Ampere (2020)
重要性： Ampere 架構在 Tensor Core 的效能上再次取得顯著提升，並引入了 Multi-Instance GPU (MIG) 技術。MIG 允許將單一 Ampere GPU 分割成多個獨立的、較小的 GPU 實例，每個實例擁有自己的運算資源、記憶體和頻寬。
對 AI 的影響：更強大的 Tensor Core 意味著更快的 AI 模型訓練和推論。MIG 技術則提高了 GPU 的資源利用率，使得在共享的基礎設施上更有效率地運行多個 AI 工作負載成為可能。
代表性產品： NVIDIA A100、GeForce RTX 30 系列。
Hopper (2022)
重要性： Hopper 架構是輝達專為 AI 和高效能運算設計的。它引入了全新的 Transformer Engine，這是一個旨在更有效地加速 Transformer 模型（現代大型語言模型的基礎）的架構創新。
對 AI 的影響： Transformer Engine 的引入顯著加速了大型語言模型的訓練和推論，這對於自然語言處理 (NLP) 領域的發展至關重要。Hopper 架構也進一步提升了整體的運算效能和互連頻寬。
代表性產品： NVIDIA H100。
Blackwell (2024)
重要性： Blackwell 是輝達最新的架構，強調更大的模型、更高的效能和能源效率。它引入了第二代 Transformer Engine，進一步優化 Transformer 模型的運算。此外，Blackwell 還採用了新的 NVLink 技術，以連接更多的 GPU 並提供更高的互連頻寬。
對 AI 的影響： Blackwell 架構旨在突破 AI 模型規模和效能的限制，使得訓練和部署更大、更複雜的 AI 模型成為可能。第二代 Transformer Engine 將進一步加速 LLM 的發展。更高頻寬的 NVLink 則有助於構建更大規模的多 GPU 系統，以應對最 demanding 的 AI 工作負載。
代表性產品： NVIDIA B200 (預計)。
從多個層面可以看出 NVIDIA 在 AI 訓練領域的深耕與佈局。首先，透過長期維護與優化 CUDA 程式庫，NVIDIA 成功將原本屬於圖形處理領域的小眾語言，擴展為廣泛被軟體開發者採用的主流工具，降低了進入 GPU 加速運算的門檻。

其次，在硬體效率方面，NVIDIA 持續提升浮點運算效能，同時優化能源效率，讓大規模模型訓練變得更具可行性。在 GPU 架構設計上，透過 Multi-Instance GPU（MIG）技術，將單一 GPU 切分為多個獨立實體，類似將一塊大蛋糕分切給多位使用者，提升資源利用率並避免浪費。

為了滿足日益龐大的模型與資料需求，NVIDIA 引入 NVLink 與 NVSwitch 技術，打造出虛擬的超大型 GPU。NVLink 可視為類似 PCIe 的高速互聯協定，隨著世代演進，其頻寬持續提升。然而，面對 AI 訓練的爆炸性成長，單靠 NVLink 已難以應付，因此 NVIDIA 推出 NVSwitch，將多條 NVLink 串接整合，實現 GPU 間的高速全互連，讓如大型語言模型（LLM）這類極需平行運算的應用成為可能。

輝達架構演進史與NV Link Switch

輝達架構演進史與NV Link Switch¶

Comments

Leave a Comment