網路城邦
上一篇 回創作列表 下一篇   字體:
不是俊男美女也有春天
2025/06/16 20:00:00瀏覽293|回應1|推薦7
不是俊男美女也有春天
媒體上一天到晚吹噓AI需要算力,讓人們覺得如果你僅有一個舊筆電,只能忍痛掏腰包買GPU, VRAM,或者訂閱LLM,才能夠使用AI。
今天和各位分享如何在傳統的CPU和DRAM的世界裡,同樣能夠在本地端使用LLM,雖然需要幾分鐘的時間。這不光只是省錢,另外還有研究LLM,萬一斷網怎辦,以及個資安全的考量。
我們知道除了廠商們拼命吹捧高速GPU伺服器的同時,另外一股研發力量,正在不斷默默降低使用LLM的門檻,尤其是當你的應用只是在做推理(Inference)而非訓練(Training) 時。這篇文章就是想告訴你,使用開源免費的喇嘛LLM(LLAMA CPP) 和 4位元的模型 (Model),你的舊筆電應該有足夠的算力,幾分鐘之內在本地端回答你的問題,或者寫一篇500字的小說
為了減少裝置軟體時遭遇的困難,這篇文章用的是Google的Colab模擬本地端電腦。你只要擁有免費Google Colab的帳號,在你的G-Drive上下載一個兩GB的四位元模型,放在相對應的位置然後用我的這個示範程式,你就可以在5分鐘之內完成喇嘛LLM的設定,兩分鐘之內回答一個有趣的問題,4分鐘之內 寫一篇500字的小說。
有興趣朋友當然可以修改裡面的字串,問不同的問題,以及做不一樣的事情,歡迎回饋討論!
需要下載的4-bit model

( 知識學習科學百科 )
回應 推薦文章 列印 加入我的文摘
上一篇 回創作列表 下一篇

引用
引用網址:https://classic-blog.udn.com/article/trackback.jsp?uid=Shaw2309&aid=182651882

 回應文章

上海迪士尼 會搶走 HK 迪士尼 遊客,
等級:6
留言加入好友
2025/09/11 13:58

讚讚,

3B (30億參數) 模型 跑 4-bit quantization 四位元量化,大約需要 4GB+ VRAM. 

==

7B (70億參數) 模型 跑 FP16 16-bit half precision floating point,半精度浮點數,大約需要 16GB  VRAM. 

目前市面上筆電已經可以提供16GB+ VRAM.