小米雷軍以4500萬年薪 聘AI「天才少女」 2024-12-30 11:18聯合報/ 記者賴錦宏/即時報導
AI人才有多火?據大陸媒體報導,小米創辦人雷軍親自出馬挖角,以年薪人民幣千萬元(約合新台幣4,500萬元)聘用「95後」AI「天才少女」羅福莉。證券時報指出,小雷軍高薪招攬DeepSeek開源大模型DeepSeek-V2的關鍵開發者之一的羅福莉,領導小米AI大模型團隊。
公開資料顯示,羅福莉大學就讀於北京師範大學電腦系,研究所畢業於北京大學計算語言學所。2019年,在北大讀碩士的她在人工智慧領域頂尖國際會議ACL發表八篇論文,登上了《知乎》熱搜。羅福莉用本人知乎帳號回應稱,「這次投稿ACL是我近一年的產出,所以我認為自己是付出了足夠的努力的,當然也可能也有運氣成分加持。」
碩士畢業後,羅福莉先進入阿里達摩院,從事預訓練語言模型相關的工作,負責阿里達摩院AliceMind開源項目,主導開發了多語言預訓練模型VECO。2022年,羅福莉加入幻方量化從事深度學習相關策略建模與演算法研究,後來跳槽到DeepSeek擔任深度學習研究員,參與研發MoE大模型DeepSeek-V2。
今年5月,在DeepSeek-V2發布後,羅福莉在《知乎》撰文,發表對DeepSeek-V2的看法。她表示,「單論DeepSeek-V2模型的中文水平,是真實處在國內外閉源模型的第一梯隊」,「外加1元/百萬輸入Tokens的價格,只有GPT4價格的1/100,性價比之王」。
事實上,羅福莉被重金招入小米,是小米全面發力AI大模型的其中一項措施。 2023年4月,小米正式組建了AI實驗室大模型團隊,並表示將不斷挖掘AI相關的用戶場景,發揮自身技術優勢,並以開放的態度與合作夥伴開拓更多機會。
今年11月,小米成立了專門的AI平台部,小米的元老級技術工程師張鐸為負責人。張鐸本碩畢業於北京清華計算機系,曾被雷軍公開稱讚是「小米的大神」,送以「鐸神」的稱號。
小米集團總裁盧偉冰透露,預計2024年小米研發費用將達人民幣240億元,2025年更是將攀升至300億元(約合新台幣1,350億元)。預計自2022年至2026年的五年內,小米的研發投入將超過人民幣1,000億元,主要聚焦於AI、OS、晶片三大底層技術的研發。
雷軍曾在公開演講中表示,小米做大模型的想法和許多公司不太一樣,選擇主力突破的是輕量化和本地部署。對於小米這樣無論在手機或造車上都講究「性價比」的公司而言,如何在燒錢的大模型業務中平衡成本,無疑是雷軍考慮的核心問題。而這,或許也是擁有DeepSeek-V2研發背景的羅福莉被雷軍看中的原因。
稀疏門控專家(MoE)架構 使用了 MoE(Mixture of Experts)技術,有效提高了模型的計算效率。在保證精度的前提下,實現了更低的運行成本。
高效訓練與優化 模型採用了一系列前沿技術,如基於大規模數據的多輪優化、增強式學習等,顯著提升了模型的泛化能力和性能。
3. 成本與性價比:DeepSeek-V2 的運行成本僅為 1元/百萬 Tokens,相較於 OpenAI 的 GPT-4(約 100 元/百萬 Tokens)大幅降低。這樣的性價比來源於以下幾個方面:
架構優化:MoE 技術讓模型的資源利用更加精確和高效。
本地化設計:針對中國市場進行深度優化,減少了不必要的資源消耗。
4. 應用場景
DeepSeek-V2 的技術與經濟特性,使其適用於多樣化的應用場景:
企業應用:提供客服自動化、數據分析、內容生成等解決方案。
教育與科研:用於多語言學習輔助、知識挖掘。
消費級產品:嵌入手機助手、智能家居等設備中,提供低成本、高效的本地化服務。
5. 優勢與挑戰
優勢:技術領先,中文能力出色。
性價比極高,適合大規模部署。
符合本地市場需求,商業化潛力巨大。
挑戰:與國際巨頭(如 OpenAI、Google)的閉源模型競爭,仍需不斷提升技術深度。
如何在性價比和模型性能之間保持長期平衡,考驗團隊的研發能力。
總結:DeepSeek-V2 以其高性價比和出色的中文處理能力,成為中國生成式 AI 技術的重要代表。在國內外 AI 市場競爭日益激烈的情況下,這款模型有望通過創新技術和本地化應用,贏得更多市場機會。ChatGPT 說:DeepSeek-V2:深入解析
高效訓練與優化 模型採用了一系列前沿技術,如基於大規模數據的多輪優化、增強式學習等,顯著提升了模型的泛化能力和性能。
DeepSeek-V2 的運行成本僅為 1元/百萬 Tokens,相較於 OpenAI 的 GPT-4(約 100 元/百萬 Tokens)大幅降低。這樣的性價比來源於以下幾個方面:
DeepSeek-V2 的技術與經濟特性,使其適用於多樣化的應用場景:
技術突破:DeepSeek-V2的中文能力被認為達到國際頂尖水準。DeepSeek-V2 的技術實力在中文語言處理領域表現尤為突出,其模型展現了強大的理解,生成和推理能力:
這樣的技術突破,不僅填補了部分國內市場的技術空白,也為更多本地化應用場景的開發提供了可能性。1. 背景與定位
DeepSeek-V2 是由中國 AI 團隊 DeepSeek 開發的一款大規模生成式預訓練模型,其專注於多模態、跨語言和大規模生成應用。這款模型的研發背景展示了中國在大模型領域的快速崛起,也表明本地化技術的高度競爭力。
2. 技術特性:中文語言處理的卓越表現 DeepSeek-V2 專注於提升中文自然語言處理(NLP)能力,特別是在生成、理解和推理等方面,達到了國際領先水平。其設計充分考慮了中文的語法結構與語意特點。
DeepSeek-V2 的性價比是其技術亮點之外的另一核心競爭力:
AI領域的人才特別是頂尖人才極其稀缺,尤其是在大模型技術(如GPT-4類模型)日益成為競爭焦點的背景下。羅福莉在學術和業界的雙重表現,讓她成為AI領域的明日之星:
這些成就使她成為眾多企業爭相挖掘的對象。
隨著生成式AI和大模型技術的迅速發展,各大企業紛紛加碼AI領域投入,小米的動作尤為典型:
羅福莉參與開發的DeepSeek-V2以高性價比為特色,這正契合小米品牌一貫強調的價值主張:
這或許是雷軍選擇羅福莉的重要原因,亦是小米試圖在燒錢的AI領域突圍的策略。
隨著中國科技巨頭如阿里,騰訊,百度等全力布局AI,小米在此領域的快速跟進表明: