AI芯天下丨科创丨国内视频生成领域单次最大融资额，阿里领投6000万美元融资_陀螺科技

我要发布

AI芯天下丨科创丨国内视频生成领域单次最大融资额，阿里领投6000万美元融资

AI芯天下原创 2025-09-17 09:19 热度 1660

分享

微信扫一扫：分享

微信里点“发现”，扫一下
二维码便可将本文分享至朋友圈

IP归属：广东

文章AI导读

一键萃取文章精髓，核心观点即刻呈现

# 梳理该事件的完整脉络

# 该文章有哪些有意思的观点或数据

# 大家对该事件的态度表现如何？

前言：

最近，不少人在短视频平台刷到过这样的创意视频：上传一张宠物照片，就能生成带3D转场的[手办动画]；用一张衣柜穿搭图，能一键做出[变装卡点短片]。

这些看似玩票的创作，背后藏着国内AI视频生成赛道的重磅消息，爱诗科技完成6000万美元B轮融资，这一金额，直接创下国内AI视频生成领域单次融资纪录。

作者| 方文三

图片来源|网络

融资背后，资本为何押注AI视频生成

在AI投资趋于理性的2025年，6000万美元的单轮融资绝非偶然。

首先是投资方阵容的[含金量]。领投方阿里巴巴不必多言，其在AI生态布局上的战略眼光（如大模型、云计算）早已验证；

跟投方中，达晨财智、深创投是国内硬科技投资的[老玩家]，北京市人工智能产业投资基金则代表了政策对AI视频赛道的认可，而巨人网络、Antler的加入，更暗示了行业对[AI+内容]商业化潜力的期待。

更关键的是资金用途的指向性。根据爱诗科技披露，60%资金将投入PixVerse多模态底座（V6、V7）研发与算力采购，20%用于海外本地化运营，10%招募高端人才，剩余10%作为流动资金。

这种[重研发、轻烧钱]的分配逻辑，恰好戳中了当前AI行业的核心痛点，比起靠投放换用户的[虚火增长]，资本更看重技术壁垒的持续构建。

[视频是最贴近用户的内容形态，一旦技术落地，产品化和商业化潜力不亚于大语言模型。]爱诗科技创始人王长虎在融资后如是说。

根据FortuneBusiness Insights数据，2024年全球AI视频生成市场规模已达6.15亿美元，预计2032年将增至25.63亿美元，复合增速20%；

中金报告更指出，仅中期来看，P端（创作者）和B端生产力工具市场规模就有望突破100亿美元。

爱诗科技的融资纪录，本质是资本对[AI视频生成从技术探索期进入应用爆发期]的集体投票。

从V5模型登顶全球，看AI视频的效率革命

对AI视频生成赛道而言，技术是不可逾越的门槛。而爱诗科技最让行业侧目的，正是其自研模型PixVerse V5的硬实力。

在权威测评平台Artificial Analysis的最新测试中，该模型拿下图生视频全球第一、文生视频全球第二，直接跻身全球第一梯队。

这份成绩背后，是爱诗在三个核心技术方向的突破，每一个都切中了用户的实际痛点。

①解决[指令沟通障碍]：用过AI生成工具的人都有体会：明明输入了清晰的指令，生成结果却[驴唇不对马嘴]。

这背后是文本、图像、视频多模态数据的[语义鸿沟]，爱诗的解法是[统一特征空间]，将文本、图像、视频等不同模态数据，映射到同一个语义体系下。

这种能力源自爱诗对VLM（视觉语言模型）的深度优化。

不同于单模态模型，其多模态架构能同时处理文字描述、图像参考、视频时序三类信息，让指令响应准确率提升40%以上。

②突破速度瓶颈：爱诗科技是业内第一个将视频生成做到5秒以内的团队。

在PixVerse V4.5时代，其生成1080P高清视频的速度就已控制在1分钟内；

到了V5版本，通过分数匹配蒸馏技术，直接将扩散模型的生成步骤从几十步压缩到极少量，实现最快5秒出片。

更难得的是速度与质量的平衡。为了避免压缩步骤导致画质下降，爱诗在训练中加入了特征自约束损失机制。

简单说，就是让模型在生成过程中[自我监督]，实时修正画面模糊、动作卡顿的问题。

实测显示，其生成的60秒视频，动作连贯性评分比行业平均水平高27%，光影还原度接近真实拍摄。

③自研DiT架构：爱诗自研的DiT（Diffusion Transformer）架构Transformer的全局注意力机制融入扩散模型，解决了传统卷积架构[难以处理长时序视频]的难题。

专属Tokenizer，针对视频和图像生成优化，在保持高压缩比的同时，确保画面重建质量—比如生成[猫咪舔爪]视频时，能清晰还原毛发的蓬松感和爪子的细节纹理。

自适应Attention结构，结合FullAttn（全注意力）和SparseAttn（稀疏注意力），动态平衡计算量与精度。

此外，其渐进式训练策略也值得一提，先从简单的图像任务练手，再逐步过渡到图像+视频联合训练；在视频训练中，从低时长、低分辨率开始，逐步提升难度。

这种[由简入繁]的路径，让模型收敛速度提升30%，同时避免了因任务过难导致的训练失败。

从[拍我AI]到1亿用户，让创作回归普通人

技术最终要落地为产品，而爱诗的产品逻辑只有一个：降低门槛，让每个普通人都能做[视频导演]。

国内用户熟悉的[拍我AI]，就是这一逻辑的集中体现。这种兼顾普通用户与专业创作者的产品设计，最终带来了用户规模的爆发。

截至2025年9月，爱诗科技全球用户突破1亿，覆盖80%的国家和地区，PixVerse（海外版）曾多次登顶美国、德国、巴西等国家的应用商店榜单。

更关键的是，其用户增长并非靠烧钱投放，2024年11月推出的[毒液变身]模板，仅靠用户自发传播就获得百亿级曝光，成为现象级案例。

从[免费玩]到[能赚钱]，AI视频的生存之道

爱诗科技的底气在于，其已实现C端订阅收入覆盖成本，同时B端业务进入规模化落地阶段，形成双轮驱动的商业模式。

截至2025年8月，其付费用户占比已达12%，订阅收入同比增长200%。

这意味着，即使不依赖融资，爱诗也能通过C端业务维持基本运营，为技术研发提供稳定现金流。

如果说C端是流量入口，那么B端就是利润核心。爱诗科技的B端业务，聚焦在四个高需求场景。

①广告行业：通过LoRA快速微调技术，帮助企业批量生成商品广告素材。

②短剧领域：支持分镜关键帧链接，创作者只需上传分镜草图，AI就能生成连贯的短剧片段；还能实现角色形象替换，大幅缩短制作周期。

③游戏行业：为游戏公司提供场景资产、角色设计生成服务。

④开放平台API：提供标准化接口，支持高并发和数据加密，同时配备专属客服团队。

截至2025年8月，已有100+合作伙伴接入API，过去半年累计生成视频超千万次，8月调用量环比增长100%。

其中既有百度智能云这样的技术伙伴，也有蓝色光标、思为科技等营销公司，甚至包括百度文库。

这种B端解决生存问题，C端扩大用户生态的模式，让爱诗在行业内显得格外稳健。

毕竟，当其他创业公司还在依赖融资烧钱时，它已经找到了技术变现的清晰路径。

结尾：

站在2025年的节点回望，AI视频生成已经走过了技术探索期，进入应用爆发期。

根据中金报告，未来十年，这一赛道将经历三个阶段。

从帮助用户高效创作的工具化到深入广告、影视、教育等垂直领域的场景化，最终走向构建从创作到分发的完整链路的生态化。

目前，全球还有几十亿人[没做过视频，没用过视频传递信息]，这正是AI视频生成的蓝海市场。

赛道的竞争才刚刚开始。快手可灵、字节跳动等大厂正在加码，OpenAI的Sora也在持续迭代，未来还会有更多创业者入局。

谁能让技术更普惠，谁能让创作更简单，谁就能在未来的十年里占据先机。

部分资料参考：机器之心：《全球图生视频榜单第一，爱诗科技PixVerse V5如何改变一亿用户的视频创作》，智东西AI前瞻：《阿里投出AI视频生成最大单轮融资！》，智能涌现：《阿里巴巴，投出AI视频生成赛道最大单笔融资》

科技融资阿里

陀螺科技现已开放专栏入驻，详情请见入驻指南： https://www.tuoluo.cn/article/detail-27547.html

AI芯天下专栏： https://www.tuoluo.cn/columns/author1911711/

本文网址： https://www.tuoluo.cn/article/detail-10125363.html

免责声明：
1、本文版权归原作者所有，仅代表作者本人观点，不代表陀螺科技观点或立场。
2、如发现文章、图片等侵权行为，侵权责任将由作者本人承担。

上一篇： AI芯天下丨热点丨“牙膏挤爆”的iPhone17背后，国内在“果链”中的地位是否稳固

下一篇：数据洞察：2025年Q2东南亚本地稳定币现状

相关文章

芯报丨新施诺完成超5亿元A+轮融资，以T字型战略深耕半导...

外卖大战烧了1000亿，也没干倒美团

国产芯片集体狂奔，芯片市场要攻守易形了？

芯报丨新施诺完成超5亿元A+轮融资，以T字型战略深耕半导...

刘鹏似乎不好，但山姆没有更好的选择

HKDALA 走进新火科技：一次关于香港加密金融未来版图...