一场 DeepSeek 引发的蝴蝶效应,正在席卷所有 AI 企业

IP归属:广东

中国 AI 初创企业深度求索(DeepSeek)凭借其开源大模型 DeepSeek R1,以“低成本、高性能”的技术路径引爆了全球 AI 市场。

DeepSeek R1 训练成本仅为 557.6 万美元,不到 OpenAI 同类模型的十分之一,却在数学推理、代码生成等任务中比肩 GPT-4o,并通过免费开源策略迅速占领开发者社区。这一突破打破了传统大模型市场的格局,让人们重新审视 AI 技术的发展方向和商业模式。

在过去,大模型市场主要由少数几家科技巨头主导,头部企业凭借着强大的算力和海量的数据,占据了市场的主导地位。而 DeepSeek 的出现,让人们看到了一种新的可能性,即通过技术创新和优化,即使在算力受限的情况下,也能够实现高性能的大模型训练。这些变化标志着 AI 竞争开始从“算力军备竞赛”转向“算法效率革命”,也引发了全球大模型市场的重新洗牌。

国外巨头的调整:拥抱开源逐渐成为共识

DeepSeek 的爆火对全球大模型市场产生了巨大的冲击。各大科技公司纷纷调整战略,以应对 DeepSeek 带来的挑战。一些公司加大了在技术研发上的投入,试图通过技术创新来提升自己的竞争力;另一些公司则开始关注成本控制和开源策略,以适应市场的变化。

在这一轮 DeepSeek 变革潮中,国外大模型企业最先受到冲击,硅谷科技公司们对 DeepSeek 的态度已经从最初的盛赞逐渐转向适应与妥协。

作为一家 2023 年 7 月才成立的中国 AI 初创公司,硅谷对 DeepSeek 的关注可能从 2024 年 6 月的“DeepSeek Coder V2 代码能力超越 GPT-4Turbo”时就已开始,但真正让这些科技巨头们开始重视起 DeepSeek 的,还是 2024 年末发布的 DeepSeek V3。

图源:网络

DeepSeek V3 训练成本仅 550 万美元左右,仅使用 2048 个 H800 GPU,总训练 GPU 卡时为 2788 千小时,远低于同类模型水平。

且在多项基准测试中,DeepSeek V3 的成绩都超越了 Qwen2.5-72B 和 Llama-3.1-405B 等其他开源模型,并在性能上和世界顶尖的闭源模型 GPT-4o 以及 Claude-3.5-Sonnet 不分伯仲。特别是在数学能力上,DeepSeek V3 在 2024 年美国数学竞赛和全国高中数学联赛题库测试中,表现大幅超过开源闭源模型。

DeepSeek V3 发布后,著名 AI 研究者、OpenAI 创始成员之一的 Andrej Karpathy 评价其表现时称,“一家中国 AI 公司发布的大语言模型仅使用 2048 块 GPU 训练了 2 个月,最终花费了近 600 万美元。而作为参考,这种级别的能力本应该需要接近 1.6 万块的 GPU 集群,而目前正在部署的集群包含的 GPU 数量却接近 10 万块。”

当时,硅谷科技圈对 DeepSeek 的态度都还基本处在高性价比路线的赞赏,或许谁也没想到,沿着 DeepSeek V3“四两拨千斤”的策略,DeepSeek 的下一个模型将真正逆转大模型“开闭源争议”的攻守之势。

从 2024 年 11 月 20 日 DeepSeek R1-lite 预览版上线,到 2025 年 1 月 20 日,DeepSeek R1 正式发布,此前变得温和的大模型市场重新被点燃,随之而来的还有硅谷科技公司的态度转变。

在世界大模型排名 Chatbot Arena 上,DeepSeek R1 基准测试升至全类别大模型第三,在风格控制类模型分类中与 OpenAI o1 并列第一,竞技场得分达到 1357 分,略超 OpenAI o1 的 1352 分,同时在数学、代码和自然语言推理等复杂任务上,DeepSeek R1 的性能也与 OpenAI o1 相当。

图源:网络

更为重要的是,作为开源模型,DeepSeek R1 相比 OpenAI O1 不仅性能毫不逊色,训练成本还大幅削减了 96.4%。

DeepSeek 的成功对美国大模型企业产生了巨大的冲击,也让整个硅谷对 DeepSeek 的声音分成了两派。

认可派观点认为 DeepSeek 是出色的 AI 进步,是一款令人印象深刻的模型。谷歌首席执行官 Sundar Pichai 就表示 DeepSeek 团队做了 “非常、非常棒的工作”,微软首席执行官 Satya Nadella 称 DeepSeek 的新模型是一个真正有效的开源模型,能够进行推理时间计算,而且计算效率极高。

质疑派则多来自于创业公司。OpenAI 就曾发表声明,认为 DeepSeek 通过 “模型蒸馏” 技术 “违规复制” 其产品功能,但却未能提供具体证据。而 Anthropic 的创始人 Dario Amodei 等也同样质疑 DeepSeek 宣称的 600 万美元低成本训练出大模型的说法,认为 DeepSeek 拥有大量英伟达芯片,不可能有如此低的成本。

图源:网络

但无论是哪一派的观点,核心都是硅谷长期依赖的“算力霸权叙事”被打破,DeepSeek 证明了“小力出奇迹”的可行性,迫使这些企业重新评估硬件堆砌模式的可持续性。

最显而易见的是,原先热衷于“挤牙膏”的公司突然开始加速技术迭代了,而原先最坚定的“闭源党”,也悄悄开始拥抱开源。

面对 DeepSeek 的挑战,腹背受敌的 OpenAI 决定采取双重策略, 紧急推出对标产品并调整开源政策。

2025 年 2 月 1 日,OpenAI 发布推理模型 o3-mini,强化复杂推理能力并开放部分免费功能,公司 CEO Sam Altman 承认 OpenAI 技术优势被削弱,并宣布计划将 GPT-2、GPT-3 等旧模型开源,以应对开发者生态流失。

不久前,Sam Altman 还悄悄在社交媒体平台发起投票,试探用户对其“下一个开源模型”的态度,也被认为是 OpenAI 即将转向端侧开源模型的预告。

图源:X

实际上,在 OpenAI 创立之初,还是怀揣打造开放 AI 技术、造福全人类的愿景。前期的 OpenAI 在一定程度上秉持着开源的理念,发布了一些开源项目和研究成果,希望通过开放源代码和数据,促进全球 AI 领域的研究和发展,推动人工智能技术的进步,让更多的开发者和研究人员能够参与到 AI 的创新中来。

但随着 ChatGPT 的爆火以及获得微软的巨额投资,OpenAI 逐渐背离了开源的初心,走向了闭源收费的模式。OpenAI 为了保住自己在 AI 领域的领先地位,选择通过 API 接口和订阅制等方式向用户提供服务,不再开放模型的权重,将高性能 AI 技术封装在付费产品中盈利,以实现商业利益的最大化,保护其核心资产和商业秘密。

DeepSeek 的出现一定程度上让 OpenAI 在长期的封闭后,对开源的态度有了较为明显的转变。Sam Altman 曾在公开场合表示支持增加透明度和开放研究,并承认“OpenAI 对 AI 技术过于保密,封闭的策略让 OpenAI 站在了历史错误的一边”。

可以发现,不只是 OpenAI,现在整个 AI 行业整体都有向开源开放发展的趋势。闭源策略虽在一定程度上保护了商业利益,但也限制了技术的广泛应用和发展,开源则有助于获取更多外部反馈和创新思路,促进自身技术进步。

作为开源理念的强烈支持者,曾参与过 OpenAI 创立的马斯克在 DeepSeek 爆火后也顺势发布了其 Grok 3 模型,同时宣布将在后续对 Grok2 进行开源。而最新的 Grok3 则走的是 “半开源” 的策略,即 “产品开放 + 核心算法封闭”,并在新一代模型出现后,对上一代模型进行开源。

图源:网络

打不过就加入,成为了硅谷巨头们应对 DeepSeek 的第一道防线,转向开源只是前菜,重要的是学习 DeepSeek 的技术创新和效率突破。

本身就处在开源阵营的 Meta 已在内部组建四个专项团队,试图破解 DeepSeek 的低成本技术路径,同时还宣布将 2025 年 AI 研发预算提升至 600 亿美元,远超 2024 年的 380-400 亿美元。谷歌则在 2 月 5 日开放功能与 DeepSeek-R1 相似的自研大模型 Gemini2.0 系列,同时还降低 API 价格,Gemini 2.0 Flash - Lite 的 API 调用价格大幅下降至 0.4 美元 / 百万 Tokens,仅为此前版本的一半,试图在 AI 搜索领域维持竞争力。

国内企业的应对:策略转变与差异化竞争

反观国内,近段时间,声音最大,动作最多的是已有大模型布局的传统互联网头部厂商。

从 2 月 3 日百度智能云千帆大模型平台上线了 DeepSeek-R1 与 DeepSeek-V3 模型开始,百度是最先受到市场压力的国内大模型厂商之一,以至于春节后开工不久,百度就急着掉头驶向开源。

2 月 13 日,百度宣布文心一言将于 4 月 1 日零时起,全面免费,所有 PC 端和 APP 端用户均可体验文心系列最新模型;2 月 14 日,百度宣布将在未来几个月中陆续推出文心大模型 4.5 系列,并于 6 月 30 日起正式开源;2 月 16 日,百度搜索和文心智能体平台全面接入 DeepSeek,搜索用户可免费使用 DeepSeek 和文心大模型深度搜索功能,文心智能体平台的开发者也可随时调用 DeepSeek 模型创建并调优智能体。

图源:网络

从表面上看,百度接入 DeepSeek、拥抱开源是应对来自 DeepSeek 的压力,但从深层次看,百度最大的压力来源不在于 DeepSeek,而是那些已经抢先合作 DeepSeek,在开源领域占得先机的竞争对手,特别是腾讯。

腾讯可以说是目前国内互联网厂商中,产品接入 DeepSeek 最为广泛的企业之一,腾讯元宝、微信、ima、腾讯文档、QQ 浏览器、QQ 音乐等多款腾讯产品,在接入混元大模型的同时,都已完成 DeepSeek-R1 模型的部署。

腾讯元宝目前已支持免费使用 DeepSeek-R1 满血版模型,并依托腾讯云的充足算力,在保障服务稳定性同时针对推理效率做了专门优化,相比 DeepSeek 官网的“服务器常态繁忙”大幅提升了模型响应速度,保障用户使用体验。

图源:腾讯

腾讯的 AI 智能工作台 ima 在更新至最新版本后,在使用搜、读、写和知识库的时候,也可以选择腾讯混元大模型或 DeepSeek-R1 满血版模型协助办公。

图源:腾讯

更为重要的是,就连微信和 QQ 浏览器都接入了 DeepSeek-R1 满血版,这一操作显然已经威胁到了百度的传统搜索业务。

在手机端,用户只需要在微信对话框顶部搜索,点击 AI 搜索,就可以免费使用 DeepSeek-R1 满血版模型以及混元深度思考模型 T1(Thinker)。

图源:腾讯

而在 PC/APP 端,接入 DeepSeek-R1 模型满血版的 QQ 浏览器可进行深度思考、联网搜索、多轮对话、历史记录回溯,还支持对回答内容进行搜索、翻译、记笔记、导出 PDF、Word 等功能,在同一界面就能实现提问、信息处理及存储。

图源:腾讯

虽然目前微信 AI 搜一搜还在灰度测试阶段,但该功能由于背靠 DeepSeek 和微信这一全民级别的互联网入口,用户使用热情远远超出腾讯预期,以至于腾讯方面需要内部紧急协调部署调用元宝来支持用户体验该功能。

图源:腾讯

根据腾讯 2024 年三季度财报数据显示,微信及 WeChat 的合并月活跃账户数已达 13.82 亿,微信与 DeepSeek 的强强联合,不仅加速了 AI 在 C 端场景的渗透,更通过数据反哺与算力需求增长,对于双方来说都是一个双赢的局面,但对于百度来说,两者的合作却很可能会动摇百度在国内搜索引擎领域的地位。

据百度发布的 2024 年第四季度及全年财报显示,截至 2024 年 12 月,百度 APP 月活用户为 6.79 亿,相比微信的十亿级别用户数还有不小差距,如若微信 AI 搜一搜功能最终上线,原先就已基本完全融入用户日常生活的微信将直接升级为最顺手的信息检索和决策辅助工具,成为继必应、小红书之后,又一个挤压百度搜索业务生存空间的竞争对手。

站在百度的角度看,或许在百度之前的闭源立场和收费模式导致的用户增长缓慢后,就已经意识到了开源和免费策略可以扩大用户基础,促进生态发展。DeepSeek 的出现更像是一场社会实验,验证了技术普惠的可行性,迫使百度调整策略。

2 月 20 日,百度搜索已全量上线 DeepSeek 满血版并提供联网服务,具备检索增强 RAG 等技术能力,便于用户获取更新、更低幻觉的信息,功能开放仅 1 小时,就吸引了 PC 端超千万用户使用。

对于百度来说,接入 DeepSeek 则弥补了自身在推理能力和用户体验上的短板,开源和免费策略则顺应了行业趋势,有助于扩大开发者生态和技术影响力,这些都是百度目前急需改变的痛点。

而与声势浩大的传统互联网厂商不同的是,与 DeepSeek 同一赛道的国内其他大模型初创企业对于 DeepSeek 爆火的回应则要安静的多。

截至目前,国内 AI 六小龙已有三家将自家产品接入 DeepSeek,分别是零一万物、阶跃星辰和 MiniMax。

2 月 11 日,零一万物宣布其海外 AI 应用 PopAi 接入 DeepSeek-R1 模型,提供深度思考和联网功能,网页版和 App 均已上线。

图源:网络

2 月 16 日,MiniMax 海外网页版 MiniMax Chat 也已接入 DeepSeek R1,限时免费体验。

图源:网络

同日,阶跃星辰旗下的跃问网页版也接入 DeepSeek,可免费体验,支持深度思考、搜索、上传文件。

其中零一万物在 DeepSeek R1 发布前,就已经调整公司模型策略,不再追求训练超级大模型,转而开发适中参数且性能优异、推理速度快、成本低的轻量化模型,零一万物 Yi-Lightning 模型推理成本仅为 GPT-4 的三十分之一。

而 MiniMax 虽然不能定义为纯粹的开源模型公司,但 MiniMax-01 模型发布会即开源,创始人闫俊杰也多次强调开源的重要性,认为开源会加速技术进化和发展速度。

其他几家公司中,智谱 AI 内部人士透露正在评估技术方案,百川智能目前在深耕医疗领域,月之暗面还在坚持 kimi - k1.5。

从技术上看,DeepSeek 和 kimi 是最相似的,都以强化学习(RL)为核心驱动力,都不需要像 MCTS 那样复杂的树搜索,只需将思维轨迹线性化,然后进行传统的自回归预测。

图源:Kimi

但两者又处在不同的优势区间。Kimi 凭借 “20 万汉字长上下文窗口” 解决专业场景长文本处理痛点,DeepSeek 则以 “万亿参数 + 极致推理成本优化” 展现复杂推理任务上的通用能力。

很难说目前 DeepSeek 是否会挤压 Kimi 的市场布局,但从最近传出的消息上看,面对出圈的 DeepSeek,Kimi 内部早已是警铃大作。

据界面新闻消息,DeepSeek 爆火之后,月之暗面做出的第一步回应是大幅收缩产品投放预算,包括暂停多个安卓渠道的投放,以及第三方广告平台的合作。有大模型领域投资人分析称,月之暗面此举是意识到投放的无效性,接下来如果要继续留在 AGI 牌桌上竞争,它只能依靠模型创新。此外,由于受到“外部因素和内部战略调整影响”,未来月之暗面可能会重新训练基础模型,并且内部选中 DeepResearch 功能作为产品方向。

当然,对于 Kimi 这样的国内大模型初创企业来说,还有另一个更大的挑战在于,面对占尽风头的 DeepSeek,自己未来的投资与合作可能还将受到影响。

在资本层面,投资者可能会更倾向于将资金投入到像 DeepSeek 这样具有显著技术优势和市场热度的项目中,其他初创公司获得投资的难度可能增加,融资规模和估值也可能受到影响。

就在不久前,一则 DeepSeek 正考虑外部融资的消息引爆了国内投资圈,虽然后续有 DeepSeek 相关人士辟谣称,融资相关均为谣言,但外界对于 DeepSeek 融资消息关注度之大也证明,现在的投资市场时刻紧盯着这一 2025 年科技圈第一潜力股,生怕错过一点投资机会。

图源:网络

而在合作方面,一些原本可能与 Kimi 合作的企业或机构,可能会因 DeepSeek 的崛起而重新考虑合作对象和合作方向。

本周起,深圳市基于政务云环境面向全市各区各部门,正式提供 DeepSeek 模型应用服务,其中在深圳市福田区,70 名政务 AI“数智员工”已正式上岗。而除了深圳外,广州、呼和浩特、无锡、赣州等地也陆续宣布完成政务环境 DeepSeek 系列大模型部署,通过融合海量政务数据要素大模型,丰富政务服务场景应用。

DeepSeek 的迅速崛起使其完成了与无数企业甚至是政府部门的合作,在短时间内树立了强大的品牌形象,成为 AI 领域的热门品牌。相比之下,国内其他 AI 品牌的影响力在 DeepSeek 的光芒下显得相对黯淡,品牌在用户心中的地位和认知度有所下降,品牌的市场声量和传播范围也受到一定限制。

这意味着对于 AI 初创公司来说,重新审视和调整品牌定位将成为应对 DeepSeek 冲击的下一步,在 DeepSeek 以技术和成本优势占据市场高地的情况下,各公司需要找到新的品牌差异化点,明确自身的独特价值和定位,否则将可能会在市场竞争中逐渐被边缘化。

结语

DeepSeek 的成功打破了“技术封闭论”,推动全球开发者协作生态的建立。对于国产 AI 产业来说,DeepSeek R1 的出现不仅意味着中国正缩小与美国的差距,更标志着全球 AI 产业正从“资本驱动”向“效率驱动”转型。

日前,DeepSeek 团队发布一篇论文介绍了新的注意力机制 NSA,能利用动态分层稀疏策略等方法,通过针对现代硬件的优化设计,显著优化传统 AI 模型在训练和推理过程中的表现,特别是提升长上下文的推理能力,在保证性能的同时提升了推理速度,并有效降低了预训练成本。

更早之前,字节跳动豆包大模型 Foundation 团队也提出了全新的稀疏模型架构 UltraMem,在保证模型效果的前提下,推理速度较传统的 MoE 架构提升 2-6 倍,推理成本最高可降低 83%。

在硬件受限下,算法创新与工程优化可显著降低成本,烧钱堆算力的必要性正被质疑,模型压缩、分布式训练等技术将成为竞争焦点。

未来,AI 竞争将更趋多元化,对于国内外 AI 企业来说,无论是加入还是对抗,DeepSeek 都在这一轮人工智能的“效率革命”中开了个好头,接下来的大模型格局将取决于技术深耕与生态开放的长期坚持,算力必需性降低下的头部企业和初创企业已经越来越接近同一起跑线,亦需在这场变革中重新定义自身的角色与价值。

陀螺科技现已开放专栏入驻,详情请见入驻指南: https://www.tuoluo.cn/article/detail-27547.html

前方智能专栏: https://www.tuoluo.cn/columns/author1911845/

本文网址: https://www.tuoluo.cn/article/detail-10120063.html

免责声明:
1、本文版权归原作者所有,仅代表作者本人观点,不代表陀螺科技观点或立场。
2、如发现文章、图片等侵权行为,侵权责任将由作者本人承担。

相关文章