豆包大模型团队发布首个多语言 SWE 数据集 Multi-SWE-bench，推动自动编程技术发展

Multi-SWE-bench 数据集正式开源

4 月 10 日消息，豆包大模型团队今日通过官方公众号宣布，首个多语言类 SWE 数据集 Multi-SWE-bench 现已正式开源，可用于评估和提升大模型 “自动修 Bug” 能力。在 SWE-bench 基础上，Multi-SWE-bench 首次覆盖 Python 之外的 7 种主流编程语言，是真正面向 “全栈工程” 的评测基准。

数据集构建与目标

其数据均来自 GitHub issue，历时近一年构建，以尽可能准确测评和提高大模型高阶编程智能水平。Multi-SWE-bench 旨在推动自动编程技术从仅能解决单一语言（如 Python）和低复杂度的任务，朝着支持多语言、具备真实问题解决能力的通用型智能体迈进。

SWE-bench 的特点与挑战

SWE-bench 是当前最具代表性的代码修复评测基准，强调任务真实、难度高。它基于 GitHub issue，要求模型自动定位并修复 Bug，兼具跨文件修改、复杂语义推理与上下文理解等挑战。

Multi-SWE-bench 的主要特性

Multi-SWE-bench 旨在补全现有同类基准语言覆盖方面的不足，系统性评估大模型在复杂开发环境下的 “多语言泛化能力”，推动多语言软件开发 Agent 的评估与研究，其主要特性如下：

多语言覆盖：首次覆盖 7 种主流编程语言（包括 Java、Go、Rust、C、C++、TypeScript、JavaScript），构建多语言开发环境下的代码修复任务，系统评估模型的跨语言适应与泛化能力。
任务难度分级：引入任务难度分级机制，将问题划分为简单（Easy）、中等（Medium）和困难（Hard）三类，涵盖从一行修改到多文件、多步骤、多语义依赖的开发挑战。
真实实例来源：1,632 个实例全部来源于真实开源仓库，并经过统一的测试标准和专业开发者的审核筛选，确保每个样本具备清晰的问题描述、正确的修复补丁以及可复现的运行测试环境。

结论

豆包大模型团队发布的 Multi-SWE-bench 数据集，为自动编程技术的发展提供了重要的资源和评测基准。通过覆盖多种编程语言和引入任务难度分级机制，Multi-SWE-bench 将推动大模型在复杂开发环境下的多语言泛化能力的提升。未来，随着更多开发者的参与和研究，该数据集有望进一步推动自动编程技术的进步。

开源链接

论文链接：Multi-SWE-bench: A Multilingual Benchmark for Issue Resolving
榜单链接：Multi-SWE-bench 榜单
代码链接：Multi-SWE-bench 代码
数据链接：Multi-SWE-bench 数据