網路城邦

上一篇 回創作列表 下一篇   字體:
黃仁勳證實NVIDIA取得Groq技術是要整合「GPU+LPU」架構優勢,並透過「軟體定義硬體」實現「運算無感化」!
2026/02/28 15:23:43瀏覽34|回應0|推薦0

很好,黃仁勳證實了Groq收購案的真實用途,符合本人於底下文章中的推測:

1、NVIDIA取得Groq技術之深層邏輯,不僅是「GPU+LPU」架構優勢,更透過「軟體定義硬體」實現「運算無感化」!(https://vincentchen123.blogspot.com/2025/12/nvidiagroqgpulpu.html?m=1)

2、AI 晶片架構與異質運算平台 全面技術分析報告(https://vincentchen123.blogspot.com/2026/01/ai.html?m=1)

—-

《新電子科技雜誌》

[GPU訓練無敵,但黃仁勳在法說會承認了它搞不定的那件事](https://www.facebook.com/100064037711634/posts/pfbid0UqrGnefAGSy5JdrgXwzTFi57GMc3Zam8gUkKirE3F8EW8MJQ4CzsTn1JtbPN8zPFl/?)

[黃仁勳承認了什麼]

第一句:「Groq追求的是極限低延遲,與我們擅長的極限高吞吐量形成互補的取捨關係。」

GPU以平行運算為核心設計,用外掛的HBM(高頻寬記憶體)存放模型參數,計算時再把資料從記憶體搬進晶片。H200的HBM頻寬約8 TB/秒,聽起來很快,但問題出在「搬運」這個動作本身。每一次token生成,都需要把整個模型的權重從HBM撈出來過一遍,這個來回的IO成本在訓練時幾乎感覺不到(批次夠大,等待時間被攤薄),但在推理時、特別是單一用戶查詢的場景下,GPU核心常常就這樣乾等著記憶體把資料送過來。

GPU還有第二個問題叫動態排程。硬體佇列、執行時仲裁、軟體核心,這些機制讓GPU在多工作業時能靈活調度,但代價是不確定性延遲。在大規模並行運算中,數百個核心必須同步啟動張量,任何一個核心慢了,這個延遲就會往整個系統傳播。這種「最慢的那個人決定整體速度」的現象,在推理場景裡是真實的痛點。

Groq的LPU(語言處理器)從一開始就衝著這兩個問題設計。LPU把記憶體直接整合在晶片上,全用SRAM而非外掛HBM,內部頻寬直接跳到80 TB/秒,是H200的10倍;同時,LPU的編譯器在執行前就把整個運算圖(包括晶片間通訊的時序)預先計算到單個時鐘週期,靜態排程徹底消除了尾部延遲。在Llama 3 8B模型的獨立測試中,LPU達到877 tokens/秒,同期最快的GPU方案約440,差距超過兩倍。

但這組數字背後藏著一個關鍵的反差。單顆LPU只有230MB的SRAM,而H200有141GB的HBM3e。跑同一個70B參數模型,LPU需要576顆晶片、塞滿9個機架;NVIDIA只要2到4張GPU裝進一個小盒子。速度快一倍,但硬體佔地大幾百倍。這個比例關係恰好說明了LPU為什麼沒辦法單打獨鬥取代GPU,它是一個為特定瓶頸量身訂做的工具,而不是通用解。

黃仁勳在法說會說的第二句話更值得玩味:「我們將以Groq作為加速器,延伸NVIDIA架構,就如同我們以Mellanox延伸NVIDIA架構一樣。」

整合路徑上,NVIDIA計劃將Groq的軟體函式庫整合進CUDA平台,建立所謂的「雙棧策略」。開發者在單一程式設計環境中完成全流程,在NVIDIA GPU上訓練模型,在LPU強化的硬體上部署超低延遲推理,兩段旅程不需要換工具。Jonathan Ross在NVIDIA內部預計主導一個新的「超低延遲」部門,任務是把LPU的確定性執行模型直接融入CUDA軟體棧。

近期在硬體層面,Rubin平台已推出專門加速推理「預填充」階段的Rubin CPX;市場進一步預期Vera Rubin將採用異構架構,在GPU核心旁嵌入「LPU條帶」處理解碼瓶頸。更長線的Feynman架構(預計2029-2030年客戶出貨)可能透過混合鍵合方式把LPU硬體直接整合進封裝,但那還是後話。

( 時事評論財經 )

推薦文章 列印 加入我的文摘
上一篇 回創作列表 下一篇

引用
引用網址:https://classic-blog.udn.com/article/trackback.jsp?uid=vchen123&aid=186724680