GitHub 与斯坦福大学合作推出 FramePack 技术,显著提升 AI 视频生成效率

FramePack 技术发布

4 月 20 日消息,来自 GitHub 的 Lvmin Zhang 与斯坦福大学的 Maneesh Agrawala 合作,共同推出了一项名为 FramePack 的创新技术。该技术通过采用固定长度的时域上下文(fixed-length temporal context)对视频扩散模型(video diffusion)进行了实用化实现,显著提高了处理效率,使得在较低硬件配置下生成更长、更高质量的 AI 视频成为可能。

核心优势与技术创新

FramePack 是一种神经网络架构,其核心优势在于利用多阶段优化技术,有效降低了本地运行 AI 视频生成任务对硬件的要求。基于 FramePack 架构构建的一个 130 亿参数模型,仅需 6GB 显存即可生成长达 60 秒的视频片段。

解决显存需求问题

传统的视频扩散模型在生成视频时,通常需要处理先前生成的所有带噪帧数据来预测下一个噪声更少的帧。这个过程中所参考的输入帧数量被称为 “时域上下文长度”,它会随着视频长度的增加而增长。这导致标准的视频扩散模型对显存有着极高的要求,通常需要 12GB 甚至更多。FramePack 通过压缩帧的重要性并汇集到一个固定大小的上下文长度内,从而极大地降低了 GPU 的显存开销。

性能表现与硬件兼容性

在硬件兼容性方面,目前 FramePack 明确要求使用支持 FP16 和 BF16 数据格式的英伟达 RTX 30、40 或 50 系列 GPU。性能方面,以 RTX 4090 为例,在启用 teacache 优化后,生成速度可达约每秒 0.6 帧。实际速度会因用户显卡型号的不同而有所差异。FramePack 在生成过程中会逐帧显示画面,提供即时的视觉反馈。

应用场景与未来展望

FramePack 的出现为普通消费者进行 AI 视频创作铺平了道路,提供了一种替代昂贵第三方云服务的可行方案。即使对于非专业内容创作者,这项技术也为制作 GIF 动图、表情包等娱乐内容提供了有趣的工具。

结论

GitHub 与斯坦福大学合作推出的 FramePack 技术,通过创新的神经网络架构和多阶段优化技术,显著提升了 AI 视频生成效率,降低了硬件要求,为用户提供了高质量视频生成的解决方案。FramePack 的应用将进一步拓展 AI 视频创作的可能性,满足不同用户的需求。