阿里通义深夜炸场:Qwen3-Omni 开源,四模态来了

如果你以为“全模态 AI”只是科幻小说里看见的,那阿里今天深夜上线的 Qwen3-Omni 要把科幻拉到现实来了。阿里通义实验室发布了业界首个 原生端到端全模态(text、image、audio、video) AI 模型 Qwen3‐Omni,并且开源,同时还有 TTS 模型(文本转语音)和图像编辑工具的一轮升级。


🌟 Qwen3-Omni 有什么绝活

  这个新模型大致具备以下特性:

  • 输入支持四种模态:文本、图像、音频、视频;输出可以是文本 + 语音(自然语音)。也就是说,你可以给它发视频+音频,让它吐回应答、吐说明,甚至用声音交流。
  • 多语言 + 方言支持丰富:119 种文本语言,19 种语音输入语言,10 种语音输出语言,包含粤语、北京话、四川话等多种中国方言。
  • 架构上用了 MoE(混合专家,Mixture-of-Experts)的 “思考者–表达者(Thinker–Talker)”设计,并结合某种预训练 + 多码本设计来压低延迟。
  • 音视频交互支持实时流式,延迟控制不错。
  • 图像编辑工具也升级了:Qwen-Image-Edit-2509 在多图像编辑、一致性(尤其是人像、产品、文字编辑)上都有改进,还有对 ControlNet 的支持。

🔍 跟其他大咖怎么比

“惊不惊喜?意不意外?”我们来对比一下市场上已经有或者前阵子出的模型/系统,看 Qwen3-Omni 在什么地方可能领先,什么地方还得追。

对手 / 对比优势(Qwen3-Omni)潜在挑战或目前看起来不一定完美的地方
Google Gemini 2.5 ProQwen3-Omni 是开源版(Apache-2.0),这意味着企业/开发者可以拿来改/部署/组合,不像 Gemini 那么“锁着”的那种闭源产品。它在音频 / 视频性能上报出有与 Gemini 等高端闭源模型相当、甚至某些基准超过的成绩。Gemini 在某些推理能力、用户熟悉度、生态(尤其工具/接口/整合到现有产品)上依然有强势;而且关键体验(例如在极端条件下的图像质量、视频帧一致性、边缘场景)还要用户来验证。
OpenAI 的 GPT-4o / o 系列在“模态输入 + 模态输出 + 开源 + 多语言/方言支持”这样一个全要素组合中,Qwen3-Omni 是一个罕见的全家桶。 它提供了低延迟流式交互,这是很多系统说支持音频/视频但体验并非“实时”的情况中比较大的差距。OpenAI 的用户基础、工具链、API 服务稳定性以及大规模部署经验还是在很多应用场景中占优。要在全球把这个开源系统完全做起来,还需要时间和资源。
其它开源/全模态模型(如早期 Qwen 系列、DeepSeek、Gemma 3n 等)相比早期版本,Qwen3-Omni + Qwen3 家族在支持语言种类、方言种类、模态支持(尤其视频 + 音频输入 + 语音输出)上更加全面。 架构上“思考者–表达者”这种把理解和输出分开的设计,使得模型在不同任务间的调优(比如纯文本 vs 音频翻译 vs 视频说明)更灵活。尽管开源,但“开源”并不等于“人人可运行得起高速版本”。高性能、多模态、低延迟需要算力、资源;对于小团队、边缘设备/差网络环境,体验可能仍有折扣。还有,真实世界的安全性、偏见、幻觉(hallucination)等问题,在复杂模态下往往更难控制。

好,我帮你整理了一个表,比一比公开资料里 Qwen3 / Qwen3-235B 和 Gemini-2.5-Pro / Flash / OpenAI 的模型在几个 Benchmark 上面的表现/差异。由于资料有些是不完全的/来源多样,缺点在于有些 benchmark 或任务里不同模型没公开数据,所以有些栏会空。你可以当参考。


📊 比较表:Qwen3-235B vs Gemini-2.5-Pro / Flash vs OpenAI 等

Benchmark / 任务Qwen3-235B / Qwen3 系列表现Gemini-2.5-Pro / Flash / Google 系列表现OpenAI(o3 / o3-mini / GPT-4o)等
LiveCodeBench(代码执行 / coding)Qwen3-MoE(235B/活跃22B)在 LiveCodeBench 上与早期版本比有显著提升,有报道说超过 Gemini-2.5-Flash 在某些 coding 任务上。Gemini-2.5-Pro / Flash 性能也很强,在 code + reasoning + multimodal 输入(在支持的任务中)表现不错,但在某些高竞争性编程 benchmark 上略落后于 Qwen3-235B。OpenAI 的 o3 / o3-mini / GPT-4o 在 coding 任务里通常有很强的稳定性与生态支持;但在公开 benchmark 中,有些任务 Qwen3 的 code 结果接近或略差于最顶尖 OpenAI 模型。
数学/逻辑推理任务(如 AIME、GSM8K、MATH 等)Qwen3-235B 在 AIME /数学任务里成绩不错,比如某些报告里说 AIME 正确率 ~85-86% 左右。Gemini-2.5-Flash / Pro 在这些数学/逻辑任务里表现也很强,有些任务略微比 Qwen3 高,特别是在极端复杂或多步骤推理任务上。OpenAI 的 o3/GPT 系列在数学逻辑任务常常是 benchmark 的强力选手,某些任务里可能领先。
语言 & 多国语言(General Knowledge / MMLU / 多语种理解)Qwen3 系列支持非常多语言(报道说 119 种文本语言)且在多语种任务中表现提升,尤其是中低资源语言中。Gemini-2.5 系列在语言理解 + 多语种任务中也很强(Google 的训练资源 +多模态 +大 context window 帮助其在大文档 /翻译 /理解中表现出色)。OpenAI 模型也常常在 MMLU / general knowledge tasks 上表现非常好;有些评测里 OpenAI 稳定稍微领先。
Context window / 长文档处理Qwen3-235B 有 native 上下文窗口 +可扩展配置,有资料指出在某些任务能处理到非常大的 token 数量(例如 32K 或者更多)Gemini-2.5-Pro / Flash 在 context window 上是其卖点之一,有极大 token limit(甚至 1,000,000 tokens 在某些版本里是被提及的/是其优势)OpenAI 的最新模型也在扩上下文长度,但公开里普遍是几十万 token 的任务较少;在实际 API /产品中可能会有更多限制。
多模态 + 输入/输出模态丰富性虽然公开的 benchmarks 在这方面不是每个都有,Qwen3 系列有比较强的多模态输入/输出支持(图像/音频/视频等)及方言/语言支持。Gemini-2.5-Pro / Flash 是多模态能力很强的一方,包括图像+文字+音频+大 context +一些工具链支持。GPT-4o/OpenAI 在多模态上也有成绩,尤其在理解图像、音频 +生成文字/回答方面,以及查询工具的整合上比较成熟。
表现综合评分 / 企业/实用任务 Benchmark(local models /商用可用性)在 “LLM Benchmarks April 2025” 中,Qwen3-32B 在 “local models” 类别里有很高排名;Qwen3 的 open 模型在很多实际任务中被认为“性价比/部署门槛 vs 效果”的组合非常有吸引力。在同一个 Benchmark 里,Gemini-2.5-Pro / Flash 也排名高,尤其在那些需要大 context +稳健推理 +多模态需求的任务中显得更全面。OpenAI 在企业应用中因为生态 +工具支持 +稳定性通常被选,但成本与封闭性/部署灵活性不是每个团队都能接受。

🔦 小结 & 谁在哪些场景下胜出

  • Qwen3-235B 的强项:代码生成 / competitive programming / 多语种文本理解 /部署灵活性(open-weight /开源),在某些 benchmark 上能追近或与 Google/其它闭源强模型比肩。
  • Gemini-2.5-Pro / Flash 的优势:巨大 context window /多模态输入输出 +实用性 +在处理长文档/多媒体混合内容时较强 /工具生态完善。
  • OpenAI 的生态与稳定性:对于很多应用开发者来说,API 稳定+工具支持齐全+benchmarks 性能高是主要考虑。

如果你愿意,我可以查最新(最近几个月)偏专门的 benchmark (比如图像+视频理解,多模态创造/编辑等)然后做一个更完整的对比表。要吗?

😎 为什么这件事挺大

  • 降低门槛:开源意味着企业和研究者可以拿到模型,上面做产品/研究,不用像闭源模型那样付费或者受限。对于国内外希望做多模态 AI 应用的团队,这是一个很大的机会。
  • 竞争格局或变:像很多国外巨头/大型公司曾经在闭源环境中占主导,但越来越多开源强模型出来,可能会促使整个行业走向更开放,更快速迭代,也可能带来更多创新。
  • 应用空间广泛:既能做文字对话,也能处理视频+音频指令、做语音转写、做方言支持、图像编辑/合成等。未来从客户服务、教育、无障碍服务、影视游戏、AR/VR 都有戏。

⚠️ 不要太梦幻,有几点还要提醒

  • 延迟与稳定性:官方说支持流式、低延迟,但“理想状态下”“满载用户并发”“网络、硬件瓶颈”这些现实因素里表现如何,还有待广大开发者/用户实测。
  • 内容安全、偏见、幻觉:多模态模型一旦接受图像 + 视频 +语音输入,风险也放大――误识别、歧义、对话里带偏见或错误信息的发生可能性更高。开源后,社区好的一面是能被发现、修正;坏的一面是也可能被滥用。
  • 生态/部署成本:咱们说的是“开源”,但开源模型要跑起来要算力(GPU/TPU),要调优,要部署/维护,这些都不是小事。对于一些资源有限的团队来说,可能门槛还是挺高。

🤔 总结一下

Qwen3-Omni 的发布,是阿里在全模态 AI 路线上一个重磅炸弹 —— 开源 + 端到端 + 多语言 + 视频/音频支持,让它具备了“全面走向产品化”的潜力。它不是一夜之间能取代一切,但它确实让“多模态未来”看起来没那么遥远了。

如果说全球 AI 是一场马拉松,各家都在你追我赶中努力突破边界,那么 Qwen3-Omni 是阿里这轮拿出来的加速器。至于谁能率先穿线,那得看谁能把不稳定的地方补好、把部署/用户体验做好。毕竟,在 AI 的赛道上,「看起来强」和「真正用起来强」之间,有时候相差好远。