AI芯天下丨科创丨国内视频生成领域单次最大融资额,阿里领投6000万美元融资

IP归属:广东

文章AI导读

一键萃取文章精髓,核心观点即刻呈现

前言

最近,不少人在短视频平台刷到过这样的创意视频:上传一张宠物照片,就能生成带3D转场的[手办动画];用一张衣柜穿搭图,能一键做出[变装卡点短片]。

这些看似玩票的创作,背后藏着国内AI视频生成赛道的重磅消息,爱诗科技完成6000万美元B轮融资,这一金额,直接创下国内AI视频生成领域单次融资纪录。

作者| 方文三

图片来源|网 络

融资背后,资本为何押注AI视频生成

在AI投资趋于理性的2025年,6000万美元的单轮融资绝非偶然。

首先是投资方阵容的[含金量]。领投方阿里巴巴不必多言,其在AI生态布局上的战略眼光(如大模型、云计算)早已验证;

跟投方中,达晨财智、深创投是国内硬科技投资的[老玩家],北京市人工智能产业投资基金则代表了政策对AI视频赛道的认可,而巨人网络、Antler的加入,更暗示了行业对[AI+内容]商业化潜力的期待。

更关键的是资金用途的指向性。根据爱诗科技披露,60%资金将投入PixVerse多模态底座(V6、V7)研发与算力采购,20%用于海外本地化运营,10%招募高端人才,剩余10%作为流动资金。

这种[重研发、轻烧钱]的分配逻辑,恰好戳中了当前AI行业的核心痛点,比起靠投放换用户的[虚火增长],资本更看重技术壁垒的持续构建。

[视频是最贴近用户的内容形态,一旦技术落地,产品化和商业化潜力不亚于大语言模型。]爱诗科技创始人王长虎在融资后如是说。

根据FortuneBusiness Insights数据,2024年全球AI视频生成市场规模已达6.15亿美元,预计2032年将增至25.63亿美元,复合增速20%;

中金报告更指出,仅中期来看,P端(创作者)和B端生产力工具市场规模就有望突破100亿美元。

爱诗科技的融资纪录,本质是资本对[AI视频生成从技术探索期进入应用爆发期]的集体投票。

从V5模型登顶全球,看AI视频的效率革命

对AI视频生成赛道而言,技术是不可逾越的门槛。而爱诗科技最让行业侧目的,正是其自研模型PixVerse V5的硬实力。

在权威测评平台Artificial Analysis的最新测试中,该模型拿下图生视频全球第一、文生视频全球第二,直接跻身全球第一梯队。

这份成绩背后,是爱诗在三个核心技术方向的突破,每一个都切中了用户的实际痛点。

①解决[指令沟通障碍]:用过AI生成工具的人都有体会:明明输入了清晰的指令,生成结果却[驴唇不对马嘴]。

这背后是文本、图像、视频多模态数据的[语义鸿沟],爱诗的解法是[统一特征空间],将文本、图像、视频等不同模态数据,映射到同一个语义体系下。

这种能力源自爱诗对VLM(视觉语言模型)的深度优化。

不同于单模态模型,其多模态架构能同时处理文字描述、图像参考、视频时序三类信息,让指令响应准确率提升40%以上。

②突破速度瓶颈:爱诗科技是业内第一个将视频生成做到5秒以内的团队。

在PixVerse V4.5时代,其生成1080P高清视频的速度就已控制在1分钟内;

到了V5版本,通过分数匹配蒸馏技术,直接将扩散模型的生成步骤从几十步压缩到极少量,实现最快5秒出片。

更难得的是速度与质量的平衡。为了避免压缩步骤导致画质下降,爱诗在训练中加入了特征自约束损失机制。

简单说,就是让模型在生成过程中[自我监督],实时修正画面模糊、动作卡顿的问题。

实测显示,其生成的60秒视频,动作连贯性评分比行业平均水平高27%,光影还原度接近真实拍摄。

③自研DiT架构:爱诗自研的DiT(Diffusion Transformer)架构Transformer的全局注意力机制融入扩散模型,解决了传统卷积架构[难以处理长时序视频]的难题。

专属Tokenizer,针对视频和图像生成优化,在保持高压缩比的同时,确保画面重建质量—比如生成[猫咪舔爪]视频时,能清晰还原毛发的蓬松感和爪子的细节纹理。

自适应Attention结构,结合FullAttn(全注意力)和SparseAttn(稀疏注意力),动态平衡计算量与精度。

此外,其渐进式训练策略也值得一提,先从简单的图像任务练手,再逐步过渡到图像+视频联合训练;在视频训练中,从低时长、低分辨率开始,逐步提升难度。

这种[由简入繁]的路径,让模型收敛速度提升30%,同时避免了因任务过难导致的训练失败。

从[拍我AI]到1亿用户,让创作回归普通人

技术最终要落地为产品,而爱诗的产品逻辑只有一个:降低门槛,让每个普通人都能做[视频导演]。

国内用户熟悉的[拍我AI],就是这一逻辑的集中体现。这种兼顾普通用户与专业创作者的产品设计,最终带来了用户规模的爆发。

截至2025年9月,爱诗科技全球用户突破1亿,覆盖80%的国家和地区,PixVerse(海外版)曾多次登顶美国、德国、巴西等国家的应用商店榜单。

更关键的是,其用户增长并非靠烧钱投放,2024年11月推出的[毒液变身]模板,仅靠用户自发传播就获得百亿级曝光,成为现象级案例。

从[免费玩]到[能赚钱],AI视频的生存之道

爱诗科技的底气在于,其已实现C端订阅收入覆盖成本,同时B端业务进入规模化落地阶段,形成双轮驱动的商业模式。

截至2025年8月,其付费用户占比已达12%,订阅收入同比增长200%。

这意味着,即使不依赖融资,爱诗也能通过C端业务维持基本运营,为技术研发提供稳定现金流。

如果说C端是流量入口,那么B端就是利润核心。爱诗科技的B端业务,聚焦在四个高需求场景。

①广告行业:通过LoRA快速微调技术,帮助企业批量生成商品广告素材。

②短剧领域:支持分镜关键帧链接,创作者只需上传分镜草图,AI就能生成连贯的短剧片段;还能实现角色形象替换,大幅缩短制作周期。

③游戏行业:为游戏公司提供场景资产、角色设计生成服务。

④开放平台API:提供标准化接口,支持高并发和数据加密,同时配备专属客服团队。

截至2025年8月,已有100+合作伙伴接入API,过去半年累计生成视频超千万次,8月调用量环比增长100%。

其中既有百度智能云这样的技术伙伴,也有蓝色光标、思为科技等营销公司,甚至包括百度文库。

这种B端解决生存问题,C端扩大用户生态的模式,让爱诗在行业内显得格外稳健。

毕竟,当其他创业公司还在依赖融资烧钱时,它已经找到了技术变现的清晰路径。

尾:

站在2025年的节点回望,AI视频生成已经走过了技术探索期,进入应用爆发期。

根据中金报告,未来十年,这一赛道将经历三个阶段。

从帮助用户高效创作的工具化到深入广告、影视、教育等垂直领域的场景化,最终走向构建从创作到分发的完整链路的生态化。

目前,全球还有几十亿人[没做过视频,没用过视频传递信息],这正是AI视频生成的蓝海市场。

赛道的竞争才刚刚开始。快手可灵、字节跳动等大厂正在加码,OpenAI的Sora也在持续迭代,未来还会有更多创业者入局。

谁能让技术更普惠,谁能让创作更简单,谁就能在未来的十年里占据先机。

部分资料参考:机器之心:《全球图生视频榜单第一,爱诗科技PixVerse V5如何改变一亿用户的视频创作》,智东西AI前瞻:《阿里投出AI视频生成最大单轮融资!》,智能涌现:《阿里巴巴,投出AI视频生成赛道最大单笔融资》

陀螺科技现已开放专栏入驻,详情请见入驻指南: https://www.tuoluo.cn/article/detail-27547.html

AI芯天下专栏: https://www.tuoluo.cn/columns/author1911711/

本文网址: https://www.tuoluo.cn/article/detail-10125363.html

免责声明:
1、本文版权归原作者所有,仅代表作者本人观点,不代表陀螺科技观点或立场。
2、如发现文章、图片等侵权行为,侵权责任将由作者本人承担。

相关文章