前言:
最近,不少人在短视频平台刷到过这样的创意视频:上传一张宠物照片,就能生成带3D转场的[手办动画];用一张衣柜穿搭图,能一键做出[变装卡点短片]。
这些看似玩票的创作,背后藏着国内AI视频生成赛道的重磅消息,爱诗科技完成6000万美元B轮融资,这一金额,直接创下国内AI视频生成领域单次融资纪录。
作者| 方文三
图片来源|网 络
融资背后,资本为何押注AI视频生成
在AI投资趋于理性的2025年,6000万美元的单轮融资绝非偶然。
首先是投资方阵容的[含金量]。领投方阿里巴巴不必多言,其在AI生态布局上的战略眼光(如大模型、云计算)早已验证;
跟投方中,达晨财智、深创投是国内硬科技投资的[老玩家],北京市人工智能产业投资基金则代表了政策对AI视频赛道的认可,而巨人网络、Antler的加入,更暗示了行业对[AI+内容]商业化潜力的期待。
更关键的是资金用途的指向性。根据爱诗科技披露,60%资金将投入PixVerse多模态底座(V6、V7)研发与算力采购,20%用于海外本地化运营,10%招募高端人才,剩余10%作为流动资金。
这种[重研发、轻烧钱]的分配逻辑,恰好戳中了当前AI行业的核心痛点,比起靠投放换用户的[虚火增长],资本更看重技术壁垒的持续构建。
[视频是最贴近用户的内容形态,一旦技术落地,产品化和商业化潜力不亚于大语言模型。]爱诗科技创始人王长虎在融资后如是说。
根据FortuneBusiness Insights数据,2024年全球AI视频生成市场规模已达6.15亿美元,预计2032年将增至25.63亿美元,复合增速20%;
中金报告更指出,仅中期来看,P端(创作者)和B端生产力工具市场规模就有望突破100亿美元。
爱诗科技的融资纪录,本质是资本对[AI视频生成从技术探索期进入应用爆发期]的集体投票。
从V5模型登顶全球,看AI视频的效率革命
对AI视频生成赛道而言,技术是不可逾越的门槛。而爱诗科技最让行业侧目的,正是其自研模型PixVerse V5的硬实力。
在权威测评平台Artificial Analysis的最新测试中,该模型拿下图生视频全球第一、文生视频全球第二,直接跻身全球第一梯队。
这份成绩背后,是爱诗在三个核心技术方向的突破,每一个都切中了用户的实际痛点。
①解决[指令沟通障碍]:用过AI生成工具的人都有体会:明明输入了清晰的指令,生成结果却[驴唇不对马嘴]。
这背后是文本、图像、视频多模态数据的[语义鸿沟],爱诗的解法是[统一特征空间],将文本、图像、视频等不同模态数据,映射到同一个语义体系下。
这种能力源自爱诗对VLM(视觉语言模型)的深度优化。
不同于单模态模型,其多模态架构能同时处理文字描述、图像参考、视频时序三类信息,让指令响应准确率提升40%以上。
②突破速度瓶颈:爱诗科技是业内第一个将视频生成做到5秒以内的团队。
在PixVerse V4.5时代,其生成1080P高清视频的速度就已控制在1分钟内;
到了V5版本,通过分数匹配蒸馏技术,直接将扩散模型的生成步骤从几十步压缩到极少量,实现最快5秒出片。
更难得的是速度与质量的平衡。为了避免压缩步骤导致画质下降,爱诗在训练中加入了特征自约束损失机制。
简单说,就是让模型在生成过程中[自我监督],实时修正画面模糊、动作卡顿的问题。
实测显示,其生成的60秒视频,动作连贯性评分比行业平均水平高27%,光影还原度接近真实拍摄。
③自研DiT架构:爱诗自研的DiT(Diffusion Transformer)架构Transformer的全局注意力机制融入扩散模型,解决了传统卷积架构[难以处理长时序视频]的难题。
专属Tokenizer,针对视频和图像生成优化,在保持高压缩比的同时,确保画面重建质量—比如生成[猫咪舔爪]视频时,能清晰还原毛发的蓬松感和爪子的细节纹理。
自适应Attention结构,结合FullAttn(全注意力)和SparseAttn(稀疏注意力),动态平衡计算量与精度。
此外,其渐进式训练策略也值得一提,先从简单的图像任务练手,再逐步过渡到图像+视频联合训练;在视频训练中,从低时长、低分辨率开始,逐步提升难度。
这种[由简入繁]的路径,让模型收敛速度提升30%,同时避免了因任务过难导致的训练失败。
从[拍我AI]到1亿用户,让创作回归普通人
技术最终要落地为产品,而爱诗的产品逻辑只有一个:降低门槛,让每个普通人都能做[视频导演]。
国内用户熟悉的[拍我AI],就是这一逻辑的集中体现。这种兼顾普通用户与专业创作者的产品设计,最终带来了用户规模的爆发。
截至2025年9月,爱诗科技全球用户突破1亿,覆盖80%的国家和地区,PixVerse(海外版)曾多次登顶美国、德国、巴西等国家的应用商店榜单。
更关键的是,其用户增长并非靠烧钱投放,2024年11月推出的[毒液变身]模板,仅靠用户自发传播就获得百亿级曝光,成为现象级案例。
从[免费玩]到[能赚钱],AI视频的生存之道
爱诗科技的底气在于,其已实现C端订阅收入覆盖成本,同时B端业务进入规模化落地阶段,形成双轮驱动的商业模式。
截至2025年8月,其付费用户占比已达12%,订阅收入同比增长200%。
这意味着,即使不依赖融资,爱诗也能通过C端业务维持基本运营,为技术研发提供稳定现金流。
如果说C端是流量入口,那么B端就是利润核心。爱诗科技的B端业务,聚焦在四个高需求场景。
①广告行业:通过LoRA快速微调技术,帮助企业批量生成商品广告素材。
②短剧领域:支持分镜关键帧链接,创作者只需上传分镜草图,AI就能生成连贯的短剧片段;还能实现角色形象替换,大幅缩短制作周期。
③游戏行业:为游戏公司提供场景资产、角色设计生成服务。
④开放平台API:提供标准化接口,支持高并发和数据加密,同时配备专属客服团队。
截至2025年8月,已有100+合作伙伴接入API,过去半年累计生成视频超千万次,8月调用量环比增长100%。
其中既有百度智能云这样的技术伙伴,也有蓝色光标、思为科技等营销公司,甚至包括百度文库。
这种B端解决生存问题,C端扩大用户生态的模式,让爱诗在行业内显得格外稳健。
毕竟,当其他创业公司还在依赖融资烧钱时,它已经找到了技术变现的清晰路径。
结尾:
站在2025年的节点回望,AI视频生成已经走过了技术探索期,进入应用爆发期。
根据中金报告,未来十年,这一赛道将经历三个阶段。
从帮助用户高效创作的工具化到深入广告、影视、教育等垂直领域的场景化,最终走向构建从创作到分发的完整链路的生态化。
目前,全球还有几十亿人[没做过视频,没用过视频传递信息],这正是AI视频生成的蓝海市场。
赛道的竞争才刚刚开始。快手可灵、字节跳动等大厂正在加码,OpenAI的Sora也在持续迭代,未来还会有更多创业者入局。
谁能让技术更普惠,谁能让创作更简单,谁就能在未来的十年里占据先机。
部分资料参考:机器之心:《全球图生视频榜单第一,爱诗科技PixVerse V5如何改变一亿用户的视频创作》,智东西AI前瞻:《阿里投出AI视频生成最大单轮融资!》,智能涌现:《阿里巴巴,投出AI视频生成赛道最大单笔融资》