3 月 12 日消息,豆包大模型团队今天正式发布文生图技术报告,首次公开 Seedream 2.0 图像生成模型技术细节,覆盖数据构建、预训练框架、后训练 RLHF 全流程。报告详细介绍了 Seedream 2.0 在原生中英双语理解、文字渲染、高美感、分辨率与画幅变换等特性的实现。
Seedream 2.0 于 2024 年 12 月初在豆包 App 和即梦上线,已服务上亿 C 端用户。相比 Ideogram 2.0、Midjourney V6.1、Flux 1.1 Pro 等主流模型,Seedream 2.0 更好地解决了文本渲染能力欠佳、对中国文化理解不足等问题,支持原生中英双语,美感、指令遵循等能力有整体提升。
Seedream 2.0 团队构建了以 “知识融合” 为核心的数据预处理框架,创新设计了四维拓扑网络,包含优质数据层、分布维持层、知识注入层和定向增强层,平衡了数据质量与知识多样性。此外,通过智能标注引擎的三级认知进化和工程化重构,团队实现了百亿数据的流水线并行处理,提升了数据处理效率与质量。
在预训练阶段,Seedream 2.0 采用了全新的预训练架构设计,突破了多语言语义理解、双语文字渲染和多分辨率场景适配等关键技术。通过原生双语对齐方案、双模态编码融合系统和三重升级 DiT 架构,Seedream 2.0 实现了文本与图像特征的空间映射对齐,提升了模型的文本渲染能力和图像生成缩放能力。
Seedream 2.0 的后训练过程包含 CT 和 SFT 增强模型美学吸引力、人类反馈对齐(RLHF)提升整体性能、Prompt Engineering 优化美学与多样性表现、超分模型提高图像分辨率等阶段。团队开发了基于人类反馈对齐的优化系统,通过多维度偏好数据体系、三个不同奖励模型和反复学习驱动模型进化,显著提升了 Seedream 2.0 的整体性能。
豆包大模型团队发布的 Seedream 2.0 技术报告展示了其在文生图技术上的重大突破,涵盖数据预处理、预训练和后训练等多个维度。Seedream 2.0 不仅解决了文本渲染和文化理解问题,还通过创新技术提升了模型的美感和指令遵循能力。随着 Seedream 2.0 的应用,豆包团队为 AI 图像生成技术的发展提供了坚实的基础和广阔的前景。