OpenAI 在 DevDay 活动中宣布推出 Whisper large-v3-turbo 语音转录模型

在 10 月 1 日举办的 DevDay 活动日中,OpenAI 宣布推出了 Whisper large-v3-turbo 语音转录模型。该模型共有 8.09 亿参数,在保证质量几乎没有下降的情况下,速度比 large-v3 快了 8 倍。

模型优化与参数对比

Whisper large-v3-turbo 是 large-v3 的优化版本,它仅有 4 层解码器层(Decoder Layers),而 large-v3 共有 32 层。尽管参数有所减少,性能却得到了显著提升。

具体来说,Whisper large-v3-turbo 语音转录模型共有 8.09 亿参数,比 7.69 亿参数的 medium 模型稍大,但比 15.5 亿参数的 large 模型小很多。这种优化使得模型在保持高效的同时,显著减少了计算资源的需求。

性能与资源需求

OpenAI 表示,Whisper large-v3-turbo 的速度比 large 模型快 8 倍,所需的 VRAM 仅为 6GB,而 large 模型则需要 10GB。这种高效的性能使得 Whisper large-v3-turbo 能够在更短的时间内完成更多的任务。

此外,Whisper large-v3-turbo 语音转录模型的大小为 1.6GB。OpenAI 继续根据 MIT 许可证提供 Whisper,包括代码和模型权重,确保开发者能够自由使用和优化。

实测结果

根据 Awni Hannun 的测试结果,在 M2 Ultra 上,Whisper large-v3-turbo 将 12 分钟的内容转录为仅需 14 秒。这一惊人的速度展示了模型的高效性能,为用户提供了极大的便利。

总结

OpenAI 推出的 Whisper large-v3-turbo 语音转录模型,通过显著提升速度和优化资源需求,为开发者和用户带来了极大的便利。此次更新不仅展示了 OpenAI 在 AI 技术领域的创新能力,也为语音转录的各种实际应用提供了新的解决方案。

未来,OpenAI 有望继续优化和扩展这一功能,进一步提升模型的性能和适用性。通过不断推动技术创新和优化,OpenAI 将在 AI 领域保持领先地位,为用户提供更高效、更便捷的解决方案。

这一举措不仅体现了 OpenAI 在技术研发方面的深厚积累,也为未来的多媒体应用和人机交互开辟了新的可能性。随着技术的不断进步和用户需求的变化,OpenAI 将继续为全球用户提供优质的 AI 服务和解决方案,为人工智能的发展贡献更多的力量。