作者|参商 西梅汁
编辑|星奈
媒体|AI大模型工场
国内大模型发展趋势|4月份解读
C端产品内卷:豆包、DeepSeek、智谱开启商业化新周期
四月以来,国内大模型C端产品集体迈入"付费分层"新阶段,但市场反馈呈现明显分化。豆包传出在测试复杂任务付费后,社交平台出现较多"免费习惯被打破"的讨论,部分用户认为68元/月的标准版门槛偏高,而500元/月的专业版更被调侃"不如直接雇助理"。这种舆论反差恰恰说明:大模型商业化不能简单套用互联网产品的"先免费后增值"逻辑,用户愿意付费的前提,是清晰感知到,付费后能获得什么不可替代的价值。
具体到豆包的三档定价策略,其实暗含了分层筛选用户的意图。标准68元/月主打轻度生产力场景,如PPT生成、会议纪要整理;加强版200元/月面向进阶用户,开放数据分析、多轮深度推理等高算力任务;专业版500元/月则锁定企业级或专业创作者,提供专属模型微调、优先推理通道等权益。这种"阶梯式价值锚定"本身是合理的商业设计,但问题是,当前模型能力是否足以支撑用户对"专业版"效果的预期?当用户花500元/月却仍遇到幻觉、逻辑断层等问题时,付费意愿自然会回落。
对比其他玩家的策略,差异更显微妙。智谱前段时间选择直接提价83%,但依托GLM-5.1在Coding场景的硬核表现,调用量反而增长400%,说明专业用户更看重"结果可靠性"而非绝对价格;DeepSeek用"快速模式+专家模式"做体验分层,免费用户仍能使用基础能力,付费用户获得深度思考与优先响应,这种"能力可见、付费可选"的渐进式设计,用户抵触情z绪相对更低。可见,付费分层的成功与否,关键不在于"收不收钱",而在于"分层逻辑是否透明、价值交付是否可感知"。
更重要的是,这轮商业化并不是简单“涨价”,而是大模型产品从流量产品向生产力产品迁移的信号。据资料显示,豆包日均Token使用量突破120万亿,三个月内翻倍;火山引擎上累计Token使用量超万亿的企业客户,也从去年底100家增至140家。这些数据说明,用户和企业对大模型的使用正在从浅层尝鲜变成高频调用。只要模型能够进入工作流,帮助用户完成更复杂、更耗时、更专业的任务,付费就不再是突兀的商业动作,而会变成效率提升之后的自然结果。
分层付费只是商业化的起点,而非终点。未来竞争的关键,或许不在于定价本身,而在于是否能构建出"场景-能力-价值"的精准匹配。更关键是让用户清晰感知付费价值:花钱就能更快搞定 PPT、更稳写完代码、更省心完成内容创作。或许这样,大模型才能跳出浅层流量生意,真正迈入订阅服务、增值权益、结果导向付费的成熟商业周期。
组织变革驱动AI落地:大厂为何集体"为AI重组"?
国内大厂的组织调整最近呈现出一致的动作。
AI不再只是某个事业群的业务选项,而是被放到集团战略中枢的位置。阿里的调整从ATH事业群的成立开始,把通义、千问、云基础设施、推理平台以及面向业务场景的AI应用,重新纳入一套更统一的协同体系中。通义实验室升级为事业部,集团技术委员会由吴泳铭牵头,周靖人、李飞飞、吴泽明等分别负责模型、AI云基础设施、业务技术平台和推理平台,这意味着阿里正在试图结束过去AI业务分散推进的状态,转向围绕Token展开的系统化协同。
百度的改革则更像是把AI从技术部门推向全员工作方式。百度取消原有T/P/E/M字母职级体系,统一调整为数字职级,并将AI工具应用、大模型落地能力、AI业务产出纳入绩效考核,甚至明确要求骨干员工AI工具提效达标20%以上。这背后的逻辑很直接:大模型落地不能只靠少数算法团队冲锋,而要让搜索、文库、网盘、地图、健康等业务都被AI重新组织。
腾讯和字节的动作,则体现了另一种组织提速方式。通过产品矩阵让AI进入更多真实场景。腾讯在4月连续推进QClaw、混元Hy3 Preview模型、ima知识Agent“Copilot”、WorkBuddy接入腾讯文档资料库等能力,把Agent、记忆、应用连接器、企业云服务串成一套可交付的系统。字节则围绕豆包、火山引擎、即梦和汽车AI方案,把模型能力快速推向语音交互、视频生成、3D生成、AI座舱等高频场景。相比单纯调整组织架构,这两家的特点是用更快的产品迭代,推动模型能力持续进入业务前线。
大模型竞争正在告别单纯比参数、比榜单的阶段,进入“组织力决定落地力”的系统阶段。技术差距逐渐缩小之后,真正拉开差距的,不只是模型本身,而是研发、算力、产品、数据、场景和商业化之间的协同效率。大厂纷纷调整架构、重构考核、整合平台,是因为AI落地已经不是一个部门能独立完成的事,而是需要整个组织围绕智能化重新排布资源。
那么,当大厂用组织杠杆放大技术优势时,创业公司的敏捷性是否仍是核心竞争力?答案或许在于聚焦与差异化。组织力决定落地速度,但场景力决定商业价值,这或许是大模型时代留给不同体量玩家的分工密码。
车载成大模型最大落地场景:北京车展背后的"舱驾一体"战争
四月的北京车展上,火山引擎、科大讯飞、商汤绝影几乎同期推出车载大模型解决方案。一个明显信号是,车载场景正在成为大模型商业化落地中确定性最高的赛道之一。
车企愿意为端侧部署、低延时响应、多语言出海等能力买单,根本原因在于,智能座舱早已从车型的加分项,变成影响用户体验和市场竞争力的标配能力。当用户可以通过语音完成导航、车控、娱乐、办公等一系列操作,大模型也不再只是车机里的“聊天助手”,而是开始融入驾驶全流程,成为连接人、车、服务与场景的移动智能体。
具体来看,火山引擎基于 Agentic AI 架构,用“一个 AI 大脑”深度联动车控、智驾、导航、座舱等关键功能域,形成“感知—推理—执行—记忆—学习”的一体化闭环,优势在于字节系产品能力与车企实际需求的快速耦合。
科大讯飞则把“端侧+出海”作为双引擎,专属车载大模型 SparkAuto EMM 已完成多类算力平台适配,指令响应延时压到 150ms,同时支持 32 种语言、覆盖 60 个国家,精准切中了中国车企全球化过程中的刚需;商汤绝影的 Sage Box 采用“端侧模型+千机系统+原生智能体”的三层架构,主打“一脑多形”的灵活赋能,优势在于将多模态理解与生成能力统一到车载场景之中。
这些背后,其实指向同一个变化:大模型正在从“云端炫技”走向“车端实用”,从单点能力展示进入真正的工程化落地阶段。
更值得关注的是,车载场景本身正在成为大模型能力迭代的“加速器”。车辆行驶过程中,模型需要处理模糊指令、抗干扰语音、多任务并行,还要面对实时性、稳定性、安全性等更高要求。相比普通对话场景,车载环境更像是一场高压测试,也在倒逼大模型技术快速成熟。
比如,讯飞端侧模型可以在本地完成语音交互与智能规划,降低对云端网络的依赖;商汤 SenseNova U1 系列以 8B-MoT 规格实现多模态理解与生成的统一;火山引擎则在视频生成等能力中强化版权与肖像安全保障。这些在车载场景中被反复打磨的能力,未来也有可能反哺教育、医疗、工业等更多垂直领域。
不过,车载并不是终点,“空间智能”或许才是大模型落地的下一站。群核科技以“全球空间智能第一股”登陆港股,背后是空间设计、3D 生成、虚实交互等能力的系统化整合;蚂蚁灵光也在移动端首发世界模型体验,用户上传图片即可秒级生成 3D 世界,并进行自由探索。
那么,当大模型开始具备理解和生成三维空间的能力,人车关系也会从“指令—执行”,升级为更自然的“意图—协同”。智能座舱不再只是屏幕、语音和应用的组合,而会进化成一个可感知、可理解、可服务的移动生活空间。这也意味着,车载大模型的竞争已经不只是参数和单点能力的比拼,而是进入“技术—场景—生态”的系统化阶段。车企真正需要的,也不是一个能聊天的语音助手,而是一套能理解驾驶场景、连接服务生态、持续优化体验的智能系统。
当端侧部署、多语言出海、空间智能等能力不断成熟,大模型正在重构的不只是人车交互,更是智能出行的价值链条。这或许才是“舱驾一体”战争背后的真正命题。
国内大模型动态
阿里
4月,阿里密集发布AI新品:推出新一代大模型Qwen3.6系列(登顶国产榜首)、语音模型Fun-ASR1.5、图像模型Wan2.7-Image等,上线无代码开发工具Meoo、世界模型Happy Oyster、数字人“千问小酒窝”、数字员工QoderWake及钉钉AI硬件A1 Pro;同时成立ATH事业群、升级通义实验室,全面加速AI从模型到产品、从组织到场景的落地。
4月30日,阿里发布数字员工QoderWake和Qoder移动端两款Agent产品,全面覆盖企业和个人场景的需求。QoderWake是业界首个安全可控、持续进化的生产级数字员工产品,能在真实工作中承担软件工程师、运营和分析师等岗位角色。目前,QoderWake已开启邀测,个人和企业均可在官网申请雇佣一位或多位数字员工,或根据自身业务流程定制专属数字员工。
4月30日,钉钉正式推出DingTalk A1 Pro,并在天猫钉钉官方旗舰店开售。这是钉钉AI硬件家族的新产品,DingTalk A1 Pro内置2980mAh大容量电池,连续录音时长达到180小时,待机时长达到180天,结合钉钉AI听记能力,A1 Pro能够将录音实时转写为文字,通过AI大模型进行总结分析,并支持多语种实时翻译。内置200多种AI纪要模板,覆盖客户拜访、面试问答、法律咨询、跨国会议等典型工作场景,帮助用户把语音沟通转化为结构化的线上知识。
4月22日,阿里巴巴正式发布生态级AI助手数字人形象“千问小酒窝”。这位女性数字人形象拥有标志性的微笑酒窝,“能谈心,更能办事”。千问小酒窝既能聊天陪伴,也能处理订餐、买票、打车、规划等日常事务,一句话完成外卖、行程、购票等跨服务操作。目前千问App内已上线,未来将逐步接入淘宝、飞猪等阿里各生态应用。
4月20日,阿里通义实验室宣布正式推出语音识别大模型Fun-ASR1.5。据介绍,它基于统一的大模型架构,单模型即可无缝覆盖30种语言、汉语七大方言体系及20+地方口音,古诗词吟诵也能精准转写。目前,Fun-ASR1.5 已在阿里云百炼平台正式上线,面向教育、传媒、金融、科技、文化等各行业客户提供 API 服务。
4月20日,阿里宣布 Qwen3.6-Max-Preview 正式发布。据介绍,该模型是 Qwen 系列新一代旗舰模型的早期预览版,拥有更强的世界知识和指令遵循能力,并在智能体编程任务中性能显著提升。用户可以在 Qwen Studio 进行交互对话,并且即将通过阿里云百炼 API 以 qwen3.6-max-preview 的名称调用。
权威三方评测榜单Artificial Analysis显示,Qwen3.6-Max-Preview性能表现超过GLM5.1、MiniMax-M2.7等模型,登顶最佳国产模型。
4月16日,阿里巴巴ATH事业群推出开放式世界模型产品“Happy Oyster”,主打实时世界创建与交互。该产品可生成动态三维环境,支持影视制作、游戏开发等场景。其与HappyHorse同属ATH旗下AI创新事业部。目前已开启内测,用户可通过官网加入候补名单。Happy Oyster基于原生多模态架构,其背后是支持多模态输入与音视频联合生成的流式生成世界模型。
4月15日,阿里ATH事业群发布旗下首款AI开发工具Meoo(秒悟),该工具集成了千问、Kimi、GLM、MiniMax四大顶尖模型,并内置阿里云数据库、存储等核心产品服务,用户无需任何编程基础,只需用自然语言描述想法,Meoo最快1分钟就能自动生成前端后端完整的网站、H5页面,并在阿里云上一键部署上线。
4月14日,千问上线“表格Agent”,支持在对话中直接生成、编辑Excel文件。用户可以要求千问检索信息后生成表格,也可以将多轮对话内容整理为表格,或基于图片、文件生成。系统通常可在1–2分钟内输出可下载的Excel文件,无需二次复制粘贴,并支持通过自然语言进行修改。
4月13日,阿里云宣布调整标准版、专业版用户的API免费额度并支持按量付费。DataWorks标准版、专业版用户,取消每日调用API的数量限制;DataWorks标准版,调用API的免费额度调整为10万次/月;超出部分采用OpenAPI按量付费的方式;DataWorks专业版,调用API的免费额度调整为50万次/月;超出部分采用OpenAPI按量付费的方式;DataWorks基础版和企业版保持不变;各版本的QPS限制保持不变。从2026年4月14日逐步发布,到2026年4月23日所有region生效。
4月10日,阿里巴巴ATH方面表示,HappyHorse是阿里ATH旗下创新事业部研发的模型,目前正处于内测中,也会于近期开放API。ATH创新事业部已启动一个AI时代的全新交互方式探索计划,HappyHorse是这个探索方向的一部分,更多的产品会陆续推出。当前HappyHorse业已注册官方微博,表示正式与大家见面,还需要一点时间。
4月9日,阿里云百炼正式上线”记忆库”功能,”记忆库系统“内置了「提取-存储-检索-注入」四大模块,用户每次与AI Agent对话结束后,系统可根据配置的记忆规则自动提取关键信息并存储,并根据用户的指令,触发语义检索召回相关记忆并附加至上下文中,实现个性化回答,有效提升Agent的长期记忆能力。
现在,“记忆库”功能限时免费向所有用户开放,用户可通过API直接调用,或通过OpenClaw等Agent产品一键安装。
4月8日,由阿里CEO吴泳铭提出阿里组建新的Alibaba Token Hub(ATH)事业群,所有关联业务需要围绕Token进行商业化。
组织变动也随之发生。据了解,中国电商事业群AI业务的负责人张凯夫不再负责,承载AI业务的“智能搜推产品”事业部调整为“平台用户及产品”和“智能算法”两个部门,负责多模态的“未来创新事业部”则融入ATH 事业群。
4月8日,阿里发布全员信,包括把通义实验室升级为事业部,由周靖人负责;李飞飞出任阿里云CTO,吴泽明专注集团CTO,淘宝闪购CEO职务由雷雁群接任。
同时,成立阿里巴巴集团技术委员会,由吴泳铭任组长,成员包括周靖人、吴泽明、李飞飞。周靖人担任技术委员会首席 AI 架构师,李飞飞负责阿里云技术以及 AI 云基础设施建设。吴泽明负责集团业务技术平台以及AI推理平台建设,并担任技术委员会召集人。
4月3日,全球知名大模型盲测榜单LMArena旗下聚焦AI编程能力的Code Arena公布新一期排名,阿里巴巴最新一代大语言模型Qwen 3.6-Plus登上全球榜单第二,超越OpenAI、Google、xAI等国际巨头,成为该榜单上排名最高的中国大模型。
4月2日,阿里新一代大语言模型Qwen3.6-Plus正式发布。较之上一代模型,千问3.6整体性能提升明显,尤其是编程Coding能力、智能体Agent能力和工具调用能力都实现了全面跃升,同时深度适配主流Agent框架,释放模型在开放环境中完成复杂任务的新潜力。
目前,Qwen3.6-Plus已上架阿里云百炼,每百万Tokens(词元)输入最低2元;千问3.6也已登陆悟空、千问App等阿里AI应用和平台。
4月2日,千问AI眼镜发布后首次进行OTA升级,上线首批“AI办事”能力。通过深度接入淘宝闪购、支付宝,支持话费充值、扫码骑车、停车缴费、语音点外卖等高频生活服务,这验证了AI眼镜类终端设备可以从“回答问题”转向“把事办成”,成为大模型落地真实世界的物理接口。
4月1日,阿里巴巴图像生成与编辑统一模型Wan2.7-Image正式发布。针对当前AI生图中的审美疲劳、色彩失控等痛点,Wan2.7-Image带来了更具“活人感”的人物生成、精准的色彩控制以及超长文本渲染能力。
腾讯
4月29日,腾讯文档宣布正式接入WorkBuddy资料库。据介绍,用户只需在WorkBuddy PC端或微信小程序完成一次授权,AI就能直接读取腾讯文档里的资料,无需下载、上传或频繁切换应用,自动完成从资料获取到内容产出的全流程操作。
4月28日,腾讯云在重庆举办城市峰会,宣布升级全栈企业级Agent产品能力,首发ClawPro专有云版、ADP智能工作台、Agent Memory、Agent Storage等多款产品,并与重庆两江新区、渝欧跨境、中国东信等十余家政府机构和企业签署合作。
同日,腾讯云发布关于CodeBuddy、WorkBuddy计费方案调整的公告。其中提出,企业旗舰版将更名为“SaaS企业版”,价格由“78元/人/月”调整为“198元/人/月”。企业专享版将更名为“专有云企业版”,价格由“158元/人/月”调整为“316元/人/月”。计划于2026年5月15日起执行新的计费方案。
4月23日,腾讯混元发布并开源Hy3 preview语言模型。该模型采用MoE架构,总参数295B、激活21B,支持256K上下文。官方称其在推理、代码、Agent等维度大幅提升。目前Hy3 preview已在腾讯云、元宝、QQ、腾讯文档等多个核心产品上线,并支持接入OpenClaw、KiloCode等主流Agent框架。
4月16日,混元3D世界模型 2.0(HY-World 2.0)正式发布并开源。据介绍,HY-World 2.0是一个多模态世界模型,能够根据文字、图片、视频等不同类型输入,自动生成、重建和模拟3D世界,同时支持多格式3D资产(Mesh/3DGS/点云等)导出,支持与现有的游戏工作流无缝对接,用于快速生成游戏地图和关卡原型。
4月9日,腾讯宣布QClaw V2大版本上线,新版本(V0.2.5)实现多Agent、应用连接器和龙虾管家三大核心能力,支持用户创建多个Agent,每个Agent可自定义不同的专长、技能和权限;同时打通众多第三方应用,官方称单任务操作步骤可减少60%以上。针对安全问题,QClaw上线“龙虾管家”功能,在QClaw可一键开启安全防护环境,拦截恶意prompt、skill投毒、文件误删、敏感信息泄露等风险。
4月8日,QQ浏览器正式发布国内首个浏览器“龙虾”——QBotClaw,支持用户自由配置国内各大主流大模型 API Key,内置QQ浏览器Skill,用户直接提问即可使用,实现人人都能轻松用上“龙虾”。首期上线Mac版本,Windows版本也将于近期上线。据介绍,QBotClaw内置自研的QQ浏览器Skill,具备深度记忆能力,可微信直连。
4月3日,腾讯云正式发布“龙虾”记忆服务TencentDB Agent Memory。据介绍,这个由腾讯云数据库团队研发的记忆引擎,从原始对话到用户画像,构建了四层渐进式记忆系统。评测数据显示,接入该服务后,OpenClaw的总回答准确率高达76.10%,较原生记忆提升近59%。目前,Agent Memory以插件的形态无缝集成至腾讯云Lighthouse、ClawPro等产品中,支持免费一键开启。
字节跳动
字节跳动在AI模型与应用上密集迭代,发布全双工语音大模型Seeduplex、3D生成模型Seed3D 2.0及高清视频生成Seedance 2.0 API,推出AI座舱方案和即梦“小章鱼”工具,豆包日均Token破120万亿,并开始测试复杂任务付费服务。
5月4日,近日,豆包App Store页面出现付费版本服务声明。对此,豆包官方回应称,豆包始终提供免费服务,在免费服务的基础上,豆包也在探索推出更多增值服务,相关方案细节目前还在测试阶段。另据接近豆包的人士透露,付费功能将主要专注在复杂任务和生产力场景,如PPT生成、数据分析、影视制作等。随着模型能力持续升级,产品已经能满足越来越多的复杂高价值任务。但此类任务需消耗更多算力与推理时间,因此豆包计划上线付费服务,满足好这部分复杂场景需求。免费版本则继续面向用户的日常使用。
4月24日,北京车展开幕首日,火山引擎发布基于 Agentic AI架构的新一代汽车AI解决方案,包含AI座舱套件方案、豆包座舱助手方案两大解决方案。
基于行业首个全链路端到端AI座舱架构,本次发布的全新解决方案彻底颠覆了上一代智能座舱“意图分域+多 Agent 协同”的语音助手架构,通过一个AI大脑深度联动整车,打通车控、智驾、导航、座舱等关键功能域,实现“感知-推理-执行-记忆-学习”一体化闭环。
4月23日,字节跳动正式发布新一代3D生成模型Seed3D 2.0,几何精度与纹理材质生成两项核心指标上均取得SOTA 结果。该模型采用Coarse-to-Fine两阶段策略和MoE架构,60位3D建模人员盲评中几何生成偏好率最高达98.3%,纹理生成偏好率超69%。模型现已支持部件分割、铰接资产及场景组合生成。当前,Seed3D 2.0 API服务已上线火山方舟。
4月21日,在AI创新巡展·成都站上,火山引擎宣布Seedance 2.0 API正式支持原生1080P全高清视频生成,无需后期超分处理,细节与光影层次显著提升。该能力适用于影视、广告、电商等更多创意场景,也能更高效地推动内容从“生成”走向“可交付”,为企业及创作者提供更高效、更高质量的内容创作支持。
4月9日,字节跳动宣布推出原生全双工语音大模型Seeduplex。据介绍,相比于上一代半双工豆包端到端语音模型,Seeduplex基于“边听边说”的全新框架设计,交互体验的自然感、顺畅度有所提升。目前,Seeduplex已在豆包App全量上线。
同日,豆包宣布打电话能力正式升级,实时语音通话功能已接入全双工语音大模型Seeduplex。据介绍,作为原生全双工端到端语音大模型,Seeduplex能够在复杂声学场景下实现精准抗干扰与动态判停,提供更顺畅、更自然的语音交互体验。该模型上线后,豆包语音通话在对话自然度、响应速度和抗干扰表现上都进一步提升,边听边讲,交流体验也更自然。
4月9日,即梦AI上线首个协作型AI叙事创作工具 “小章鱼”Octo,并创新提出Vibe Create创作模式。作为探索性尝试,Octo功能并未全量上线,仅在即梦Web端开放内测申请。
据介绍,在交互方式上,Octo支持“对话 + 多模态混合”的同屏共创方式,其搭载的智能Agent可主动通过图片、音频等形式与创作者开展创意碰撞,实时感知界面内容与用户操作,实现边对话边生成的异步并行创作。同时该功能还搭建了全流程AI制作闭环,能够完成从故事大纲梳理、核心资产构建,到剧本分镜生成、短片成片输出的全链路操作,并深度联动Seedance 2.0、Seedream 5.0 Lite等即梦线上最新模型。
4月2日,火山引擎在AI创新巡展·武汉站上宣布,Seedance 2.0 API 面向企业用户开放公测。据介绍,火山引擎为 Seedance 2.0 建立了行业领先的版权与肖像安全保障,覆盖视频生成涉及的各种模态和创作前后全流程,对侵权、深度伪造等行为进行检测和防御,有效保护版权方和创作者的权益。
截至今年3月,豆包大模型日均Token使用量已突破120万亿,在过去三个月内增长一倍,比2024年5月发布时增长1000倍。目前,在火山引擎上累计Token使用量超过一万亿的企业,已从去年底的100家增长到140家。
百度
4月28日,百度内部发布全员通知,官宣启动全公司职级体系全面改革,自 2026 年 5 月 1 日起正式执行,取消原有 T/P/E/M 字母职级体系,统一调整为 5-12 级数字职级体系,同步将 AI 工具应用、大模型落地能力、AI 业务产出纳入全员绩效考核核心指标,明确要求骨干员工 AI 工具提效标准达标 20% 以上,将 AI 核心能力作为员工晋升、评优的硬性考核指标,全面适配公司全栈 AI 转型战略。
4月27日,在百度AI Day开放日上,百度文库网盘联合发布通用智能体GenFlow4.0并升级Office Agent,用户可在网盘通用智能体GenFlow4.0中一键部署OpenClaw,将文库网盘打造成自己的“AI工作台”。截至目前,通用智能体GenFlow4.0月活用户已达1亿,月任务交付量达2亿次。
4月24日,百度在2026百度创作者大会上正式介绍全新升级的搜索AI引擎。升级后的AI搜索引擎以Master Agent为核心,新增需求规划Agent和组织生成Agent,可自主拆解复杂任务、调用工具、链接服务,将搜索体验从“找到、知道”全面升级为“得到、做到”。
4月15日,百度文心大模型团队正式开源文生图模型ERNIE-Image。据介绍,该模型基于单流Diffusion Transformer(DiT)架构,并配有一个轻量级Prompt Enhancer,用于将简短输入扩展为更丰富、更结构化的描述。参数规模仅为8B,仅需24GB显存的消费级显卡即可运行,生成效果媲美顶级商业模型。
4月13日,近日,百度智能云旗下DuClaw公布了新一轮升级,在此前打通小度硬件的基础上,进一步打通百度地图,用户现在通过DuClaw部署小龙虾,只需一条出行指令,就可同步调起小度与百度地图,完成包括日程查询,天气路况及出行规划建议,并通过小度硬件语音交互实时反馈给用户。
4月2日,从百度健康方面获悉,其面向医生群体推出的AI产品“有医助理”于今日上午正式发布。该产品是国内首个将权威医学检索与任务型AI执行深度融合的全场景医生工作平台。
“有医助理”包含检索与任务两大核心模式:其中检索模式基于数千万级医学数据支持权威循证溯源,致力打造“中国版OpenEvidence”;任务模式基于Claw框架,能够自主完成学术科研、论文创作、患者随访等复杂任务,实现医疗AI从“信息检索”向“任务完成”的跨越。百度健康方面还透露,“有医助手”已在App端开放检索模式体验,任务模式逐步开放使用。针对医疗数据隐私,产品构建了包括数据隔离、加密通信在内的五层医疗级安全防护体系。
月之暗面
4月20日晚,月之暗面正式发布并开源其最新模型Kimi K2.6。据官方披露,该模型在测试中可实现13小时不间断编码,其Agent集群架构迎来大升级,支持300个子Agent并行完成4000个协作步骤,在多项基准测试中表现持平或优于GPT-5.4、Claude Opus 4.6和Gemini 3.1 Pro等闭源模型,是月之暗面迄今最强的代码模型。
目前模型已上线kimi.com、Kimi API、最新版Kimi App和Kimi Code编程助手,所有用户均可开始使用。
蚂蚁集团
4月27日,蚂蚁灵光App正式上线“体验世界模型”功能,成为业界首个可在移动端体验世界模型的AGI产品。用户只需上传一张图片,即可在手机上秒级生成3D世界,并用手游操控视角,自由探索长达60秒。该功能背后接入的是蚂蚁灵波LingBot-World-Fast世界模型,该模型现已开源。灵光App负责人蔡伟表示,这是灵光探索智能边界的又一实践,旨在把好的AI体验带给所有人。目前,用户可在各大应用商店下载灵光App体验。
4月22日,蚂蚁百灵正式推出 Ling-2.6-flash —— 一款总参数量 104B、激活参数 7.4B 的 Instruct 模型。该模型主打“Token 效率(Token Efficiency)”,在保持竞争力智能水平的同时,更快、更省以及更适合大规模真实应用。
据权威三方评测Artificial Analysis 数据,Ling-2.6-flash 展现了突出的 Token Efficiency 优势,以 15M output tokens 实现了 26 分 的 Intelligence Index,在保持较强智能水平的同时,将输出消耗控制在相对更低的位置。相比部分依
4月20日,蚂蚁灵光发布新一代闪应用“灵光圈”,致力于打造人人可用的消费级Coding Agent。
在原有“30秒生应用”基础上,灵光闪应用持续强化多智能体协作、全模态生成及移动端原生能力集成,成为首个支持用户用自然语言,在手机端创建、分发、使用、迭代AI应用的平台,真正实现了0代码、0部署、0门槛个性化创作。截至目前,灵光用户已创建超3000万个闪应用。
4月16日,蚂蚁灵波科技宣布开源流式三维重建模型 LingBot-Map。该模型仅需一个普通 RGB 摄像头,即可在视频采集过程中实时估计相机位姿、重建场景三维结构,为机器人、自动驾驶、AR 眼镜等应用提供连续、稳定、实时的空间感知与理解能力。模型支持约 20 FPS 实时推理和超万帧长视频连续运行且精度几乎不衰减,兼顾了精度、速度和长时稳定性。
4月2日,近日,蚂蚁数科旗下专业龙虾产品DTClaw已开启内测。与当前市场上仅能完成文档整理、会议纪要、资料收集等技能的“普通虾”不同,DTClaw 定位“专业虾”,可为金融专家、理财顾问、数据专家等专业人群提供7×24 小时在线的专属AI智能体服务。
据了解,DTClaw出生即“专家”,平台支持上百种专业skills技能,且预置丰富的熟虾模版,覆盖理财、投资、数据分析、研发与测试等高价值场景,用户可一键部署,无需再从头训起,高效省token。
MiniMax
4月16日,MiniMax上线全球首个云端沙箱 Hermes —— MaxHermes。MaxHermes 将 Hermes Agent 的学习闭环与自我进化能力与 MiniMax M2.7 模型深度结合,用户无需本地部署,10 秒内即可在云端拥有一个越用越懂自己的 AI 智能体。
据悉,MaxHermes 的核心差异在于其独特的学习闭环机制。每完成一项复杂任务,MaxHermes 会自动从中提炼出可复用的 Skills,保存为独立文档。在后续使用中,这些 Skills 按需加载,并根据新的使用反馈不断自我改进。此前,OpenClaw 的 Skills 依赖人工预设与引导,能力在部署那一刻就已固定;而 MaxHermes 的 Skills 由 Agent 自主生成、自主迭代,能力随使用持续生长。
4月12日,MiniMax M2.7在全球正式开源,携华为昇腾、摩尔线程、沐曦、昆仑芯、NVIDIA,以及Together AI、Fireworks、Ollama等海内外芯片厂商、推理平台,在开源首日即完成模型接入与推理适配工作。
4月10日,MiniMax正式发布新一代音乐生成模型Music 2.6。本次更新从底层引擎到创作工具实现全维度进化,大幅提升生成延迟、音乐控制、声学品质,推出全新“Cover”创作功能和面向AI Agent生态的Music Skill,并面向全球创作者开启为期14天的免费内测。
4月9日,MiniMax宣布发布MMX-CLI,一个面向AI Agent的命令行工具。据了解,接入MMX-CLI后,Agent可以在ClaudeCode、OpenClaw等环境中原生调用MiniMax最新的编程、视频生成、语音合成、音乐创作等全模态模型,无需适配繁琐接口,也无需额外编写MCP Server。
科大讯飞
4月24日,科大讯飞正式亮相2026北京国际汽车展览会,重点展出基于星火大模型迭代打造的新一代多模态智能座舱解决方案。该座舱系统实现极速交互响应,指令意图响应延时低至150ms,针对口语化模糊指令、碎片化用车需求的识别理解准确率突破90%;专属端侧车载大模型SparkAutoEMM完成多类车载算力平台适配兼容,可在车端本地实现语音交互、场景服务、智能规划等本地化AI能力,降低云端依赖、提升行驶稳定性与隐私安全性。
同时,讯飞同步展示星火海外版大模型车载应用成果,全面支持32种主流语言,服务范围覆盖全球60个国家和地区,目前已完成多家主流出海车企车型的适配搭载,加速智能座舱出海商业化落地。
4月16日,2026科大讯飞 AstronClaw升级发布会正式举办,发布9项创新产品。其中,面向招标与采购场景,科大讯飞企业级招采助手——招采Claw首次亮相。产品深度融合全新升级的科大讯飞AstronClaw、SkillHub及招采知识库,直击传统招采痛点,以专属Agent智能决策大脑,为企业打造全流程自动化、智能化、合规可控的招采新范式,助力企业实现降本提效与合规升级。
智谱 AI
4 月 28 日,智谱入选《时代》杂志 “2026 年全球最具影响力 10 家人工智能公司”,成为唯一上榜的中国独立大模型企业,同期入选的还有字节跳动、阿里巴巴两家中国公司。
《时代》评价称,智谱作为中国首家在香港完成IPO上市的大语言模型公司,其GLM-5模型在部分基准测试中超越了谷歌的Gemini3Pro等对手,并在Coding和Agent任务上近Claude Opus系列模型。这是迄今为止最强有力的信号之一,智谱的GLM模型表明中国模型能在前沿领域与西方技术竞争。
4月8日,智谱正式发布新一代开源模型 GLM-5.1,官方称这是目前全球最强的开源模型。据官方介绍,其是唯一达到 8 小时级持续工作的开源模型,在最接近真实软件开发的 SWE-bench Pro 基准测试中,GLM-5.1 实现国产模型首次超越 Opus 4.6。
OpenRouter 显示,伴随此次发布,智谱 GLM 再度提价 10%。调价后,GLM-5.1 在 Coding 场景的缓存命中 Token 价格已接近 Anthropic 旗下 Claude Sonnet4.6 水平。这是国产大模型首次在核心场景实现与海外头部厂商的价格对齐。
4月2日,智谱发布首个原生多模态Coding基座模型GLM-5V-Turbo。该模型最大突破在于深度融合视觉与编程能力,能够原生处理文本、图片、视频等多模态信息,同时擅长编程、长程规划、操作执行等复杂任务。
GLM-5V-Turbo在多模态Coding、Agent等核心基准上取得领先表现,引入视觉能力的同时,纯文本编程与推理能力保持了同等水准。并且深度Claude Code与龙虾场景,让OpenClaw龙虾具备了真正的视觉能力,能看懂屏幕上的信息。目前该模型已通过智谱MaaS平台开放接入。
4月1日,在智谱2025年业绩说明会上,智谱CEO张鹏对记者介绍,2026年一季度智谱的API调用定价提升83%,即便如此,市场依然呈现出供不应求的情况,调用量增长400%。当前,智谱已成为国内付费Token消耗量最高的厂商之一。据介绍,智谱GLM模型已全面部署于Google Vertex AI、AWS Bedrock、Fireworks、Cerebras等全球顶尖云服务商。
商汤科技
4月28日,商汤科技发布并开源新一代原生理解生成统一模型SenseNova U1系列,随后壁仞科技、寒武纪、昆仑芯、摩尔线程、中科海光等10家国产芯片公司,均已完成对开源的SenseNova U1 Lite系列的Day 0适配。
SenseNova U1基于商汤NEO-unify原生理解生成统一架构,实现了语言和视觉信息的高效协同,达到开源模型的SOTA水平。它在单一模型架构上统一了多模态理解、推理与生成,并在业内首创了连续性图文创作输出,具有高密度信息表达能力。仅凭8B-MoT的较小规格,就能达到甚至超越部分大型商业闭源模型。
4月24日,商汤绝影亮相北京车展,正式发布面向舱驾一体全场景智能体的智能座舱与智能驾驶全系智能体产品。
据悉,此次首发的Sage Box(千机智盒),以Sage端侧模型、千机系统(Sage OS)与New Member原生智能体三层架构,打造出可进化的车载自主智能大脑,实现“一脑多形”赋能全场景终端。
4月20日,商汤医疗完成新一轮融资,估值突破 10 亿美元,成为全球医疗世界模型赛道领跑者。本轮资金用于医疗 AI 模型迭代、临床场景落地及全球化拓展,依托商汤多模态大模型技术,加速医疗影像诊断、药物研发、健康管理等领域的 AI 应用普及。
科大讯飞
4月24日,科大讯飞正式亮相2026北京国际汽车展览会,重点展出基于星火大模型迭代打造的新一代多模态智能座舱解决方案。该座舱系统实现极速交互响应,指令意图响应延时低至150ms,针对口语化模糊指令、碎片化用车需求的识别理解准确率突破90%;专属端侧车载大模型SparkAutoEMM完成多类车载算力平台适配兼容,可在车端本地实现语音交互、场景服务、智能规划等本地化AI能力,降低云端依赖、提升行驶稳定性与隐私安全性。
同时,讯飞同步展示星火海外版大模型车载应用成果,全面支持32种主流语言,服务范围覆盖全球60个国家和地区,目前已完成多家主流出海车企车型的适配搭载,加速智能座舱出海商业化落地。
4月16日,2026科大讯飞 AstronClaw升级发布会正式举办,发布9项创新产品。其中,面向招标与采购场景,科大讯飞企业级招采助手——招采Claw首次亮相。产品深度融合全新升级的科大讯飞AstronClaw、SkillHub及招采知识库,直击传统招采痛点,以专属Agent智能决策大脑,为企业打造全流程自动化、智能化、合规可控的招采新范式,助力企业实现降本提效与合规升级。
DeepSeek
4月29日,部分用户反馈,DeepSeek网页版已上线“识图模式”。试用发现,该模式支持用户上传图片并进行内容理解与分析。目前,该功能尚未全量推送,具体功能边界尚不清楚。值得一提的是,就在今日,DeepSeek负责多模态开发的研究员陈小康在X平台发文“Now, we see you”并配图,图中DeepSeek标志性的鲸鱼“摘下”了眼罩。
本月初,DeepSeek刚刚上线了“快速模式”和“专家模式”,前者适合日常对话,即时响应;后者擅长复杂问题,高峰需等待。彼时就有网传截图显示,除了“快速”和“专家”模式,DeepSeek还有个名为“vision”的模式。最新的“识图模式”与前述“vision”入口高度吻合。分析认为,这标志着DeepSeek多模态能力的开放,其产品矩阵从纯文本对话正式延伸至图文交互,向GPT-4o、Gemini等主流多模态大模型靠拢。
4月24日,DeepSeek全新系列模型DeepSeek-V4的预览版本正式上线并同步开源。据悉,DeepSeek-V4拥有百万字超长上下文,在Agent能力、世界知识和推理性能上均实现国内与开源领域的领先。模型按大小分为pro和flash两个版本,DeepSeek-V4-Flash是更快捷高效的经济之选,API服务已同步更新,通过修改model_name为deepseek-v4-pro或deepseek-v4-flash即可调用。
4月8日,DeepSeek正在悄悄进行一场小范围的灰度测试。最新版本中,DeepSeek 输入框上方新增“快速模式”与“专家模式”,这是 DeepSeek 走红以来首次在产品端引入模式分层设计。快速模式适合日常对话,即时响应,支持图片和文件中的文字识别;专家模式擅长复杂问题,支持深度思考和智能搜索;当前不支持文件上传和多模态功能,DeepSeek 还提醒该模式下如遇高峰需等待。
爱诗科技
4月23日,AI视频创作平台PixVerse(爱诗科技)正式成为联合国2026 AI for Good全球峰会电影节独家AI合作伙伴。这是继2025年受邀参会、入选联合国大学全球人工智能网络之后,PixVerse与国际组织的又一次深度合作。目前PixVerse全球用户已超1亿,覆盖177个国家和地区。此次合作中,PixVerse设立特别奖,面向全球征集AI视频作品,所有入围前10名的决赛选手将受邀赴瑞士日内瓦参加峰会颁奖典礼。投稿截止5月15日。
4月8日,爱诗科技PixVerse C1正式上线,作为全球首个影视行业大模型,PixVerse C1支持文生、图生、参考生、首尾帧能力,最高支持15秒1080P视频,音画同步出片,所有能力可跟随提示词指令自动分镜。
昆仑万维
4月28日,昆仑万维发布2026年第一季度报告。该公司实现营业收入25.7亿元,同比增长45.69%,其中海外业务收入24.87亿元,同比增长49.29%,国际竞争力持续增强。伴随AI技术商业化落地加速推进,天工AI业务收入较2025年第四季度延续高速增长态势。短剧和AI短剧平台业务单月流水超4800万美元,年度经常性收入(ARR)突破5.7亿美元。
此外,已搭建全模态模型底座,依托“视频模型、音乐音频模型、世界模型、基座文本与多模态模型”四大SOTA模型重塑内容创作供需体系,赋能“AI短剧、AI音乐、AI游戏”三大AI原生娱乐经济体,探索AI Native平台经济全新模式。
4月3日,在 2026 中关村论坛年会期间,昆仑万维天工 AI 举办专场发布会,正式推出三大旗舰模型:Matrix-Game 3.0(AI 游戏)、SkyReels V4(AI 视频)、Mureka V9(AI 音乐),均跻身世界第一梯队。同步发布 “4+3 战略”:以四大 SOTA 模型(视频 / 音乐 / 世界 / 文本多模态)为底座,赋能 AI 短剧、AI 音乐、AI 游戏三大原生娱乐经济体,配套超级智能体(SuperAgent),构建全链路 AI 内容生态。
阶跃星辰
4月16日,阶跃星辰正式发布新一代语音生成模型 StepAudio 2.5 TTS,围绕全局语境控制、文中语境控制、零样本复刻与全音色控制三项核心能力, StepAudio 2.5 TTS 让语音生成更自然、更灵活也更有表现力。
据了解,想要灵活调控 StepAudio 2.5 TTS,上手方式并不复杂,只要你“说出需求”就行。上手更简单,结果也更贴近预期。
4月2日,阶跃星辰正式上线新模型Step 3.5 Flash 2603。新增low think mode,面向所有Step Plan用户开放。据介绍,测试数据显示,该模型在默认推理模式(high)下,推理分数基本持平,token消耗降低了14%;切换到low think mode(低推理模式)后,token消耗则降低了56%。
群核科技
4月17日,群核科技正式在港交所挂牌上市,成为“全球空间智能第一股”股票代码:00068.HK。群核科技是“杭州六小龙”中首家完成IPO的科技企业,同时成为“全球空间智能第一股”。
本次IPO,群核科技获最终以每股7.62港元的发行区间上限定价,全球发售约1.606亿股,募集资金总额约12.24亿港元,所得款净额约10.92亿港元。招股阶段,群核科技香港公开发售获1591倍认购,国际发售获14.46倍认购。
此前,群核科技已获得纪源资本、顺为资本、IDG资本、高瓴创投、经纬创投、Coatue、Hearst、Pavilion Capital、云启资r、线性资本等知名机构的投资。
公司成立于2011年,总部位于杭州,是一家以GPU集群和人工智能技术为核心的空间智能企业,旗下拥有国内最大空间设计平台酷家乐及其海外版Coohom。
数据支持天眼查,大模型独家合作账号









