教學機器人 NVidia GPU架構-1 - 夏肇毅部落格

字體：小中大

教學機器人 NVidia GPU架構-1

2026/05/31 15:13:30瀏覽38｜回應0｜推薦0

教學機器人 NVidia GPU架構-1

編著: 夏肇毅

初版: 2026/5/31

1.1 從圖形處理到通用運算GPU

NVIDIA GPU的發展起點來自圖形渲染需求，但隨著並行計算需求提升，逐漸演變為通用GPU（GPGPU）架構。早期GPU專注於像素與頂點運算，而現代GPU則支援科學計算、深度學習與高效能運算。這種轉變的核心在於大規模並行架構設計，使GPU可同時處理數千甚至上萬執行緒，形成與CPU截然不同的計算模式。其計算能力可概念化為$Throughput \propto CoreCount \times ParallelEfficiency$，顯示並行度的重要性。

1.2 Fermi到Hopper世代演進

NVIDIA GPU從Fermi架構開始引入統一記憶體模型與更強的並行能力，後續Kepler、Pascal、Volta、Ampere到Hopper逐步提升Tensor運算與AI加速能力。每一代架構都強化記憶體頻寬、計算密度與能效比。例如Volta首次引入Tensor Core，使矩陣運算大幅加速，成為深度學習關鍵推手。

1.3 GPU與CPU架構差異演化

GPU與CPU的核心差異在於設計目標不同：CPU偏向低延遲與複雜控制流，而GPU則專注高吞吐並行運算。GPU透過大量簡單核心取代少量強大核心，使其特別適合矩陣運算與影像處理。這種設計理念決定了其在AI與科學計算中的主導地位。

1.4 高效能並行計算目標

NVIDIA GPU設計核心目標是最大化並行吞吐量，使單位時間內處理更多計算任務。透過SIMT（Single Instruction Multiple Thread）模型，GPU可讓大量執行緒同步執行相同指令，提高硬體利用率。此模型特別適合矩陣與向量運算。

1.5 能效比最佳化設計

GPU架構強調每瓦效能最大化，透過降低控制邏輯複雜度與增加計算單元密度達成高能效比。能效比可表示為$\eta = \frac{Performance}{Power}$，NVIDIA透過製程進步與架構優化持續提升此指標，使GPU適用於資料中心。

1.6 可擴展計算架構設計

GPU設計需具備高度可擴展性，使其能從桌面級延伸至超級電腦與AI資料中心。透過多GPU互聯技術（如NVLink）與模組化SM設計，使系統能橫向擴展計算能力，滿足不同規模需求。

1.7 SIMT執行模型解析

SIMT模型允許多個執行緒同時執行相同指令，但處理不同資料。這種設計介於SIMD與多執行緒之間，使GPU能在保持硬體簡化的同時達到高並行效率。Warp是SIMT的基本執行單位，通常包含32個執行緒。

1.8 Warp與執行緒管理

Warp是GPU排程與執行的基本單位，每個Warp內的執行緒同步執行指令。當發生分支時會導致warp divergence，降低效率。因此GPU設計鼓勵一致性控制流以維持高效能。

1.9 並行計算抽象模型

GPU將計算問題抽象為大量獨立任務，使其可分解為多執行緒並行執行。這種模型特別適用於矩陣乘法與深度學習訓練，其計算密度可達CPU數十倍以上。

1.10 深度學習加速應用

GPU在深度學習中的應用主要來自其矩陣運算能力，例如神經網路前向與反向傳播皆依賴大量矩陣乘法。Tensor Core進一步加速FP16/FP8運算，使訓練速度大幅提升。

1.11 科學運算與模擬

GPU廣泛應用於物理模擬、氣候模型與流體力學等領域，因其能同時處理大量數值計算。透過CUDA平台，研究人員可將傳統CPU程式轉換為GPU加速版本，大幅縮短運算時間。

1.12 圖形渲染與遊戲引擎

GPU最初用途仍在圖形渲染，如光柵化、著色與陰影計算。現代遊戲引擎依賴GPU即時生成高畫質影像，透過並行管線處理大量像素與頂點資料，實現即時3D渲染效果。

( 知識學習｜隨堂筆記 )