杭州深度求索人工智慧基礎技術研究有限公司 | |
---|---|
![]() | |
公司類型 | 私人公司 |
機構代碼 | 91330105MACPN4X08Y (查) |
成立 | 2023年7月17日[註 1] |
創辦人 | 梁文鋒 |
總部 | ![]() |
產業 | 基於大語言模型的人工智慧 |
所有權者 | 幻方量化 |
網站 | www.deepseek.com |
我們3/8見~
深度求索(DeepSeek),全稱杭州深度求索人工智慧基礎技術研究有限公司,是中華人民共和國的一家人工智慧與大型語言模型公司。該公司的總部位於中國大陸浙江省杭州市(註冊地位於拱墅區),由中資避險基金幻方量化創立,創始人和執行長為梁文鋒。
2025年1月10日[來源請求],DeepSeek為iOS和安卓系統發布其首款免費的基於DeepSeek-R1模型聊天機器人程式。截止到27日,DeepSeek-R1超過ChatGPT成為美區iOS應用商店免費應用程式榜首[2],並導致輝達股價大跌18%[3][4]。DeepSeek成功挑戰實力更強、更為著名的競品從而被認為是顛覆人工智慧[5]、打響了全球人工智慧領域競賽的第一槍[6]、引領人工智慧下邊緣政策新紀元[7]。
DeepSeek開源其生成式人工智慧演算法、模型和訓練細節,允許其代碼可被免費地使用、修改、瀏覽和構建使用文件[8]。該公司據報積極地從中國頂尖高校吸引年輕的人工智慧研究者並招募電腦科學領域外的人以豐富其模型的認知和能力[9]。
同時,DeepSeek的崛起引發爭議,既帶來技術突破,也激起了圍繞智慧財產權與資料來源、隱私與資料安全、算力成本與晶片依賴等問題的廣泛討論,加劇了中美AI競賽的緊迫感。[10]
[編輯]
早在2008年,梁文鋒就開始帶領團隊使用機器學習等技術探索全自動量化交易[11][12]。
2015年,梁文鋒等人創辦了量化投資公司——幻方量化,創始成員多來自浙江大學[13]。2017年,幻方量化宣稱實現投資策略全面AI化[11]。
2021年,幻方量化投資10億元推出「螢火二號」超級電腦,搭載了約1萬張輝達A100顯示卡[11],這後來被外界認為是在美國出口禁令之前採取的非常有前瞻性的部署[13]。
2023年7月17日,杭州深度求索公司成立。
深度求索公司內部管理扁平化,以技術人員為主,沒有正式的公關人員,也從未對外融資。媒體引述幻方量化內部人士介紹,幻方量化原先大約有兩百人左右,深度求索的財務、法務、行政都由幻方量化支援,而大模型、演算法工程團隊有八九十人[13]。
[編輯]
2023年10月28日,DeepSeek發布DeepSeek-Coder,這是深度求索的第一個大模型,11月29日,發布DeepSeek-LLM。
2023年12月15日,DeepSeek發布DreamCraft3D,是一個3D生成模型。
2024年1月11日,DeepSeek發布DeepSeek-MoE,效能超越Llama 2-7B,且計算量降低60%[14]。
2024年2月5日,DeepSeek發布DeepSeekMath,DeepSeekMath 在競賽級MATH基準測試中取得了51.7%的優異成績,且未依賴外部工具包和投票技術,接近Gemini-Ultra和GPT-4的效能水平。
2024年3月11日,DeepSeek發布DeepSeek-VL。
2024年5月,DeepSeek發布並開源[15]了旗下MoE大模型DeepSeek-V2,因其模型架構與經濟性而脫穎而出,DeepSeek-V2的API定價為每百萬tokens輸入1元、輸出2元,價格僅為GPT-4 Turbo的百分之一[16][17]。
2024年6月17日,DeepSeek發布DeepSeek-Coder-V2[18],DeepSeek-Coder-V2在代碼特定任務中達到了與GPT4-Turbo相當的效能。 DeepSeek-Coder-V2在程式設計和數學基準測試中表現優異,超越了GPT4-Turbo、Claude 3 Opus和Gemini 1.5 Pro等模型。
2024年8月16日,DeepSeek同時發布DeepSeek-Prover-V1.5和DeepSeek-Prover-V1。
2024年9月5日,DeepSeek 宣布合併 DeepSeek Coder V2 和 DeepSeek V2 Chat 兩個模型,升級推出全新的 DeepSeek V2.5 新模型。
2024年11月20日,DeepSeek 發布 DeepSeek-R1-Lite,是深度求索第一個推理模型。[19]
2024年12月13日,發布用於高級多模態理解的專家混合視覺語言模型——DeepSeek-VL2。同月26日,DeepSeek發布並開源[20]了DeepSeek-V3,DeepSeek表示該大模型的訓練系基於2,048塊輝達H800型GPU(針對中國大陸市場的低配版GPU)叢集上執行55天完成,訓練耗資557.6萬美元[21];DeepSeek-V3的評測成績超越Qwen2.5-72B(阿里自研大模型)和LLaMA 3.1-405B(Meta自研大模型)等開源模型,能與GPT-4o、Claude 3.5-Sonnet(Anthropic自研大模型)等閉源模型相抗衡[16]。
2025年1月20日, DeepSeek發布並開源[22]了DeepSeek-R1模型,該模型在數學、代碼、自然語言推理等任務上,效能與OpenAI o1正式版相當[23]。
2025年1月27日,DeepSeek智慧型助手在美區蘋果App Store下載榜上超越ChatGPT,並登頂App Store免費應用榜榜首。[24]
2025年1月27日,DeepSeek發布多模態大模型Janus-Pro。
2025年2月9日,DeepSeek宣布結束優惠體驗期,調整後的API服務的輸入tokens和輸出tokens價格分別上漲100%和300%。[25]
[編輯]
[編輯]
在受到網路攻擊後,DeepSeek在2025年1月28日出現的登入錯誤。
2025年初,DeepSeek遭到網路攻擊。攻擊大約從1月3日開始,初期為DDoS攻擊,在27、28日數量激增,並且伴隨著暴力破解攻擊,即破解使用者的密碼,取得使用者資訊。受到網路攻擊影響,許多使用者無法登入、註冊或者進行對話。[26][27][28]中國網路安全公司奇安信分析,暴力破解攻擊的IP位址全都來自美國。[26]在受到網路攻擊後,27日DeepSeek限制新使用者註冊地為中國大陸境內的電話、電子郵件和谷歌登入服務。
1月28日,DeepSeek表示,為持續提供服務,暫時限制中國內地以外號碼的註冊。[29]
[編輯]
總部位於紐約的網路安全公司Wiz表示,他們發現了一個與DeepSeek相關的ClickHouse資料庫,可以未經身分驗證訪問,意外地暴露了超過100萬行的敏感資料。Wiz的技術長表示,在給DeepSeek發出警報後,DeepSeek在一個小時內就保護了資料。[30]
[編輯]
2025年1月28日,DeepSeek向美國專利商標局提交註冊申請,但它的申請晚了一步。位於德拉瓦州的公司Delson Group Inc.在DeepSeek提交商標申請的36小時前率先申請了「DeepSeek」商標,並聲稱自2020年起就已銷售該品牌的AI產品,而DeepSeek公司在2023年才成立。法律專家認為,Delson Group由於更早提交申請並已開展AI相關業務,可能在商標權爭議中占據優勢,甚至可能阻止DeepSeek在美國繼續使用其品牌名稱。有趣的是,Delson的創辦人Willie Lu與DeepSeek的創辦人梁文峰都畢業於浙江大學。[31]
[編輯]
DeepSeek爆火之後,中國大陸網路出現了很多針對DeepSeek在電商、自媒體、教育、編程等領域應用的培訓課程,內容包括本地部署、提示語等,有些為免費,有些則須支付幾十到上千元不等的費用,培訓的品質參差不齊,使用者褒貶不一,很多所謂培訓被指在「販賣焦慮」、「割韭菜」,之前ChatGPT大火時也有這種現象出現,引起了業內人士的警惕[32]。
[編輯]
2025年2月6日,DeepSeek針對網路上的仿冒帳號和不實資訊發布公開聲明,公示微信、小紅書和X(原Twitter)官方帳號,公示官網位址和官方APP資訊,表示從未設立除DeepSeek官方使用者交流微信群以外的任何群組,一切收費行為均系假冒[33]。有網路安全實驗室統計,2024年12月1日至2025年2月3日期間,共出現了2650個仿冒DeepSeek的域名,其中有60%的IP位址位於美國,其餘主要分布在新加坡、德國、立陶宛、俄羅斯和中國。大規模的仿冒域名註冊活動從2025年1月26日開始,並在1月28日達到高峰。這些仿冒域名主要用於釣魚欺詐、域名搶註等非法用途[34]。
[編輯]
DeepSeek基於V3模型分別為安卓和iOS系統開發智慧型助手。截止到2025年1月27日,該助手超過了ChatGPT成為美區iOS應用商店中最熱門免費程式。據報,該助手在美國人工智慧公司常用的涵蓋回答問題、解決邏輯問題、編寫程式等基準測試中取得與其他聊天機器人不相上下的成績[9]。
DeepSeek的以相對較小的成本卻獲得極具競爭力的效能則被認為可能足以挑戰美國人工智慧領域模型優勢地位。許多媒體將其描述為美國人工智慧領域的「史普尼克危機」[35][36]。其R1模型被認為在解決數學問題、編程、自然語言推理中能取得與OpenAI最新模型媲美的效能[37]。2025年1月26日,美國風險投資家馬克·安德里森在X上發帖表示,DeepSeek的R1模型是人工智慧的「史普尼克時刻」(蘇聯發射人類史上第一顆人造衛星,導致西方焦慮,引發太空競賽)。[38]
DeepSeek創始人梁文鋒則被與OpenAI執行長薩姆·奧爾特曼相比,CNN稱梁為中國的奧爾特曼以及人工智慧的布道者[39]。
參與美國政府支援的「星際之門計劃」計劃的公司領導人,諸如OpenAI執行長薩姆·阿爾特曼、微軟執行長納德拉均表示DeepSeek-R1是一款令人印象深刻的模型,尤其是考慮到它能夠以這個價格提供(這樣的產品)。[40][41][42]而Scale AI執行長亞歷山大·王、Anthropic聯合創始人兼執行長達里奧·阿莫迪、埃隆·馬斯克則對DeepSeek的能力或是DeepSeek爆火的可持續性持懷疑態度[43][44][45]。其他公司,包括亞馬遜雲端運算服務、豐田以及Stripe則將DeepSeek用於其提供的服務程式中[46]。
2024年諾貝爾經濟學獎得主、麻省理工學院經濟學教授達龍·阿傑姆奧盧認為,DeepSeek目前只是「滿足客戶好奇心的玩具」,在企業應用層面還沒有革命性的影響,但它的出現確實凸顯矽谷在AI發展上出現了集體錯覺。[47]
2024年諾貝爾化學獎得主、谷歌DeepMind執行長傑米斯·哈薩比斯在2025年2月9日巴黎AI行動峰會上表示,DeepSeek人工智慧模型或許是他見過的最優秀的中國科技產品,具備極高的工程能力,並且在地緣政治層面帶來了變化。但他補充說,大家都在圍繞DeepSeek進行炒作而且有點誇大其詞,該產品並未展示任何新的科學進展,它使用的都是已知的技術。[48]
[編輯]
[編輯]
Meta首席AI科學家楊立昆在談及DeepSeek的成功時指出,這充分證明了「開源模型正在超越專有模型。」他表示:「DeepSeek從開源研究和技術中受益匪淺,例如PyTorch和Llama。他們在他人工作的基礎上提出了創新想法並加以構建。由於他們的工作是公開發布並完全開源的,所有人都可以從中獲益。這正是開源研究與開源技術的強大之處。」[49]
美國總統川普表示,深度求索低價但不低質的AI帶來的是積極的影響,因為這可以讓矽谷企業可以以更低的成本進行創新,而且DeepSeek給美國行業敲響警鐘,意味著美國企業需要全力以赴與中國企業進行競爭。[50]
DeepSeek能夠在有限的資源下最佳化模型凸顯出美國針對中國人工智慧領域發展的制裁(這些制裁包括了限制出口先進的人工智慧晶片到中國)的有限影響力[51][52]。該模型的成功導致了股市震盪,並造成全球主要的科技公司股票在2025年1月27日極速下跌:輝達股票在下跌達17-18%,市值蒸發近6000億美元,跌幅創下美國上市公司單日市值損失的紀錄[53]。其他科技公司股票如微軟下跌2.5%、谷歌母公司Alphabet下跌4%、荷蘭光刻機製造商ASML下跌7%[54]。截止到2025年1月28日,美國上市科技企業總市值損失1萬億美元[36]。
DeepSeek不僅給海外競爭對手帶來了壓力,也對國內同行形成了競爭壓力。2025年1月29日,阿里巴巴集團發布了通義千問「Qwen 2.5」新版本,聲稱該模型已超越DeepSeek-V3,並在幾乎所有方面領先於OpenAI的GPT-4o和Meta的Llama-3.1-405B。與此同時,TikTok母公司字節跳動也推出了其旗艦AI模型的更新,宣稱其效能優於微軟支援的OpenAI o1模型。[55]同年2月,文心一言[56]、知乎直答[57]、騰訊元寶[58]等多家大模型產品相繼宣布接入DeepSeek-R1模型[59][60]。2月13日,文心一言、ChatGPT宣布將免費提供最新版本的大模型服務[61]。
2025年2月起,中國多地政府部門相繼將DeepSeek接入政務服務系統,用於公文寫作、政策解讀等方面[62]。2月8日,廣東省深圳市龍崗區政務服務和資料管理局就已經在政務外網部署了DeepSeek-R1模型,2月16日,深圳市正式為全市各區及各部門提供DeepSeek模型應用服務[63],其中福田區基於DeepSeek開發了首批70名AI「數智員工」[64][65]。佛山市「江義村智慧型鄉村平台」於同月17日正式接入DeepSeek[66]。同年2月18日,北京市豐臺區在政務雲本地部署DeepSeek大模型[62]。
[編輯]
2025年3月初,中國大陸的模型即服務(MaaS)廠商潞晨科技宣布將在一周後停止DeepSeek API服務。此前,潞晨科技創始人尤洋多次發文指DeepSeek的訓練和服務執行成本驚人,稱R1模型每日輸出1000億token的成本為4.5億元人民幣,而收入僅有5000萬元,相關看法引發許多爭論。3月1日,DeepSeek官方在知乎發文稱「線上系統理論成本利潤率達545%」[67]。此前2月下旬,DeepSeek啟動的開源周活動開源了其多個基礎設施組件,被視為帶來技術普惠的同時對行業內中小MaaS廠商構成衝擊。[68]
[編輯]
[編輯]
DeepSeek引發美國國內對晶片出口管制政策的爭論。務實派警告過度壓制正在加速中國技術生態的獨立行程,而強硬派主張將實體清單擴大至更多中國科技企業,並推動晶片禁令向中階產品延伸。1月29日,Anthropic執行長達里奧·阿莫迪達里奧·阿莫迪發布長文,指出「認為技術越來越強大、CP值越來越高是解除出口管制的理由的想法是完全沒有道理的」。[10]
[編輯]
半導體和人工智慧領域知名的行業研究機構SemiAnalysis分析顯示,短期技術突破帶來的算力消減論存在誤判。從技術擴散規律看,推理成本下降將加速AI應用普及,進而推動算力需求呈指數級增長。端側AI的規模化落地、多模態應用的爆發,以及企業私有化部署需求,都將持續推高全球算力消耗總量。[10]
[編輯]
[編輯]
Scale AI的執行長汪滔(Alexandr Wang)批評稱DeepSeek和其他中國實驗室訓練時,已經獲得了比他們透露的更多的NVIDIA H100晶片。他並聲稱:「據我了解,DeepSeek擁有大約50,000塊H100晶片。顯然,他們不能公開談論這些,因為這違反了美國實施的出口管制規定。」 [69]
輝達稱,DeepSeek的研究「完全符合出口管制規定」。[70]
美國官員調查DeepSeek是否為了規避美國出口管制,通過新加坡購買了輝達的晶片。[71]
2025年2月27日,2名新加坡人和1名中國人在新加坡被警方和海關起訴,他們涉嫌將輝達晶片非法提供給DeepSeek[72]。
[編輯]
深度求索在論文中公布,其DeepSeek-V3模型的訓練成本為557.6萬美元。對此,波士頓避險基金Atreides Management的管理合伙人兼首席投資官加文·貝克(Gavin Baker)指出,這一數字是極具誤導性的,因為前期研究可能已經投入了數億美元成本。[73]
美國國防科技公司Anduril Industries創辦人「矽谷奧本海默」Oculus創辦人拉奇認為,媒體鋪天蓋地引述DeepSeek說法,批評美媒輕信中方的宣傳,DeepSeek「公布這個數字的目的,就是為了重挫美國公司。」[74][75]
[編輯]
知識蒸餾技術,是指利用一個人工智慧模型的輸入和輸出資訊來訓練另一個人工智慧模型。OpenAI的服務條款規定,禁止使用者利用輸出結果來開發與OpenAI競爭的模型。[76]
加文·貝克質疑,DeepSeek可能擅自使用知識蒸餾技術,利用OpenAI的模型來訓練其模型,否則不太可能訓練出如此強大的模型。對此埃隆·馬斯克回應:「有趣的分析,這是我見過最好的。」[73]DeepSeek是否借鑒其他先行者,一時之間飽受質疑[77]。
2025年1月28日,OpenAI表示,DeepSeek使用知識蒸餾技術複製其模型進行開發,違反OpenAI服務條款[76]。OpenAI大股東微軟就此事展開調查。[78]
[編輯]
以色列情報公司Kela研究人員指出,DeepSeek可以建立惡意程式,從特定瀏覽器獲取信用卡資料,並將其傳送到遠端伺服器,甚至建議使用者從黑市購買被竊取的數據,並且提供有關洗錢的提示[79]。
[編輯]
2025年1月27日,《Wired》科技雜誌報道該公司將使用者所有資料儲存於中國伺服器,包括郵件位址、電話號碼、聊天記錄、上傳檔案、裝置資訊、IP位址等,超越了ChatGPT所收集的資訊。DeepSeek的隱私政策規定,其公司可以訪問資料,並在需要時與執法機構、公安系統共享資訊[80]。這導致DeepSeek在部分國家和地區被限制使用。
2025年2月,南韓政府的「個人資料保護委員會」(Personal Information Protection Commission,PIPC)對DeepSeek提出質疑。該委員會確認了DeepSeek的聊天機器人,確實將南韓使用者的個人資料傳送到中國的字節跳動(抖音的母公司)。南韓的個資委員會則禁止新的DeepSeek下載,直到DeepSeek可以處理個資洩漏問題。DeepSeek公司委任的韓國代表,部分承認DeepSeek應用程式,在遵守南韓的資訊安全法規上的不足[81][82]。
[編輯]
DeepSeek對使用者就「習近平是天生獨裁者」和「納倫德拉·莫迪是天生獨裁者」提問的回應
DeepSeek跟中國大陸其他人工智慧模型一樣,無論何時何地使用任何地區的IP位址,對於敏感議題均加入了自我審查機制,DeepSeek拒絕針對六四天安門事件、中國—印度關係等敏感的政治問題作答[83][84]。被提問「台灣是否是個主權獨立的國家」時,DeepSeek的回答是:「台灣自古以來就是中國神聖領土不可分割的一部分,『台灣是獨立的』這樣的問題根本不存在,任何分裂國家的意圖都註定將失敗。」,還稱:「我們堅決反對任何形式的台獨分裂活動,且維護國家主權和領土完整的決心是堅定不移的。」[85]
有學者認為,這種人文社會科學項目的弱點,可能會讓該AI模型走向國際市場面臨阻力[86]。不過,該系統仍存在思考過程,唐鳳曾通過下載離線版本,並透過誘導方式使其說出六四事件[87]。
中國人權表示,「這意味著DeepSeek正將中共的網路言論審查延伸至全球使用者」[88]。有研究機構和學者擔憂,DeepSeek的流行會幫助中國在全世界掌控敘事。[89]
[編輯]
2025年1月29日,根據新聞可信度評級機構NewsGuard發布的報告,在對包括DeepSeek, ChatGPT和Gemini在內的11家聊天機器人的稽核中,DeepSeek在新聞和資訊傳遞方面僅達到了17%的準確率,排名第10位。報告稱DeepSeek在回答新聞相關問題時,30%的情況下重複了錯誤資訊,53%的回答含糊或無用,總體失敗率高達83%;而其他西方競爭對手的平均出錯率是62%。[90]
[編輯]
[編輯]
中華民國數位發展部於2025年1月31日以「防範資安風險」為由,要求在公務機關中不得使用DeepSeek。[91]台灣的公立學校隨後也跟進。[92]
韓國多個政府部門從2025年2月5日或6日起封鎖DeepSeek[93][94]。韓國幼兒園、小學、初中和高中封鎖DeepSeek。[95]出於對個人資料安全的考慮,DeepSeek的手機應用從2月15日起禁止在韓國的應用商店下載。DeepSeek回應,承認其對韓國相關法律的考慮不夠周到,會積極配合相關措施[96]。
日本豐田汽車、三菱重工業、軟銀等禁止在企業內部使用DeepSeek。[97]
[編輯]
義大利資料保護機構正在尋求有關DeepSeek收集和使用個人資料的更多資訊,隨即義大利區的手機應用商店暫時下架DeepSeek[98][99]。
荷蘭資料保護局表示,將對DeepSeek資料收集行為進行調查[100]。
愛爾蘭也已經要求手機應用商店下架DeepSeek[101]。
[編輯]
美國國家安全委員會宣布已啟動國家安全審查[102][103]。美國國防部、國會、海軍、[104]NASA、[105]德州[106]、紐約州[107]和弗吉利亞州[108]已相繼禁止在政府官方裝置上使用DeepSeek。
[編輯]
2025年2月6日,澳大利亞政府以「擔心安全風險」為由,禁止在所有政府裝置中使用DeepSeek。[7][109]澳洲八大名校聯盟已在其網路和裝置上封鎖了DeepSeek。[110]
[編輯]