日前,阿里通义万相宣布开源业界首个百亿参数规模的首尾帧生视频模型Wan2.1-FLF2V-14B,可根据用户提供指定的开始和结束图片,生成一段衔接首尾画面的720p高清视频。
图源:网络
基于现有的Wan2.1文生视频基础模型架构,通义万相首尾帧生视频模型进一步引入了额外的条件控制机制,通过该机制可实现流畅且精准的首尾帧变换。
在推理阶段,为了在有限内存资源的条件下支持高清视频推理,通义万相首尾帧生视频模型分别采用了模型切分策略以及序列并行策略,在确保推理效果无损的前提下,显著缩短了推理时间。
基于该模型,用户可完成更复杂、更个性化的视频生成任务,可以实现同一主体的特效变化、不同场景的运镜控制等视频生成。
目前,阿里首尾帧生视频模型已经上线通义万相官网并可直接免费体验,或在Github、Hugging Face、魔搭社区下载模型进行本地部署。