AI人才有多火?據大陸媒體報導,小米創辦人雷軍親自出馬挖角,以年薪人民幣千萬元(約合新台幣4,500萬元)聘用「95後」AI「天才少女」羅福莉。證券時報指出,小雷軍高薪招攬DeepSeek開源大模型DeepSeek-V2的關鍵開發者之一的羅福莉,領導小米AI大模型團隊。
公開資料顯示,羅福莉大學就讀於北京師範大學電腦系,研究所畢業於北京大學計算語言學所。2019年,在北大讀碩士的她在人工智慧領域頂尖國際會議ACL發表八篇論文,登上了《知乎》熱搜。羅福莉用本人知乎帳號回應稱,「這次投稿ACL是我近一年的產出,所以我認為自己是付出了足夠的努力的,當然也可能也有運氣成分加持。」
碩士畢業後,羅福莉先進入阿里達摩院,從事預訓練語言模型相關的工作,負責阿里達摩院AliceMind開源項目,主導開發了多語言預訓練模型VECO。2022年,羅福莉加入幻方量化從事深度學習相關策略建模與演算法研究,後來跳槽到DeepSeek擔任深度學習研究員,參與研發MoE大模型DeepSeek-V2。
今年5月,在DeepSeek-V2發布後,羅福莉在《知乎》撰文,發表對DeepSeek-V2的看法。她表示,「單論DeepSeek-V2模型的中文水平,是真實處在國內外閉源模型的第一梯隊」,「外加1元/百萬輸入Tokens的價格,只有GPT4價格的1/100,性價比之王」。
事實上,羅福莉被重金招入小米,是小米全面發力AI大模型的其中一項措施。 2023年4月,小米正式組建了AI實驗室大模型團隊,並表示將不斷挖掘AI相關的用戶場景,發揮自身技術優勢,並以開放的態度與合作夥伴開拓更多機會。
今年11月,小米成立了專門的AI平台部,小米的元老級技術工程師張鐸為負責人。張鐸本碩畢業於北京清華計算機系,曾被雷軍公開稱讚是「小米的大神」,送以「鐸神」的稱號。
小米集團總裁盧偉冰透露,預計2024年小米研發費用將達人民幣240億元,2025年更是將攀升至300億元(約合新台幣1,350億元)。預計自2022年至2026年的五年內,小米的研發投入將超過人民幣1,000億元,主要聚焦於AI、OS、晶片三大底層技術的研發。
雷軍曾在公開演講中表示,小米做大模型的想法和許多公司不太一樣,選擇主力突破的是輕量化和本地部署。對於小米這樣無論在手機或造車上都講究「性價比」的公司而言,如何在燒錢的大模型業務中平衡成本,無疑是雷軍考慮的核心問題。而這,或許也是擁有DeepSeek-V2研發背景的羅福莉被雷軍看中的原因。
稀疏門控專家(MoE)架構 使用了 MoE(Mixture of Experts)技術,有效提高了模型的計算效率。在保證精度的前提下,實現了更低的運行成本。
高效訓練與優化 模型採用了一系列前沿技術,如基於大規模數據的多輪優化、增強式學習等,顯著提升了模型的泛化能力和性能。
3. 成本與性價比:DeepSeek-V2 的運行成本僅為 1元/百萬 Tokens,相較於 OpenAI 的 GPT-4(約 100 元/百萬 Tokens)大幅降低。這樣的性價比來源於以下幾個方面:
架構優化:MoE 技術讓模型的資源利用更加精確和高效。
本地化設計:針對中國市場進行深度優化,減少了不必要的資源消耗。
4. 應用場景
DeepSeek-V2 的技術與經濟特性,使其適用於多樣化的應用場景:
企業應用:提供客服自動化、數據分析、內容生成等解決方案。
教育與科研:用於多語言學習輔助、知識挖掘。
消費級產品:嵌入手機助手、智能家居等設備中,提供低成本、高效的本地化服務。
5. 優勢與挑戰
優勢:技術領先,中文能力出色。
性價比極高,適合大規模部署。
符合本地市場需求,商業化潛力巨大。
挑戰:與國際巨頭(如 OpenAI、Google)的閉源模型競爭,仍需不斷提升技術深度。
如何在性價比和模型性能之間保持長期平衡,考驗團隊的研發能力。
總結:DeepSeek-V2 以其高性價比和出色的中文處理能力,成為中國生成式 AI 技術的重要代表。在國內外 AI 市場競爭日益激烈的情況下,這款模型有望通過創新技術和本地化應用,贏得更多市場機會。ChatGPT 說:DeepSeek-V2:深入解析