Hugging Face 推出超小型视觉语言模型 SmolVLM,性能表现令人惊艳
SmolVLM 亮相:小体积,大作为
11 月 27 日消息,Hugging Face 平台宣布推出全新的 SmolVLM AI 视觉语言模型(VLM)。这款模型仅有 20 亿参数,专为设备端推理设计,以其极低的内存占用在同类模型中脱颖而出。
三种版本,各有千秋
SmolVLM AI 模型共有三个版本:
-
SmolVLM-Base:用于下游微调。
-
SmolVLM-Synthetic:基于合成数据微调。
-
SmolVLM-Instruct:指令微调版本,可以直接用于交互式应用。
巧妙的架构设计
SmolVLM 的最大特点在于其巧妙的架构设计,借鉴了 Idefics3,使用了 SmolLM2 1.7B 作为语言主干。通过像素混洗策略,视觉信息的压缩率提高到了 9 倍。训练数据集包括 Cauldron 和 Docmatix,并对 SmolLM2 进行了上下文扩展,使其能够处理更长的文本序列和多张图像。优化的图像编码和推理过程有效降低了内存占用,解决了以往大型模型在普通设备上运行缓慢甚至崩溃的问题。
内存与吞吐量表现
SmolVLM 在内存使用上也表现出色,将 384x384 像素的图像块编码为 81 个 tokens,相同测试图片下,SmolVLM 仅使用 1200 个 tokens,而 Qwen2-VL 则使用 1.6 万个 tokens。更令人惊艳的是,SmolVLM 在 MMMU、MathVista、MMStar、DocVQA 和 TextVQA 等多个基准测试中表现出色,预填充(prefill)吞吐量快 3.3 到 4.5 倍,生成吞吐量快 7.5 到 16 倍。
开源与未来展望
SmolVLM AI 模型的优点不仅在于体积小、速度快、内存高效,还在于其完全开源。所有模型检查点、VLM 数据集、训练配方和工具均在 Apache 2.0 许可证下发布。这意味着开发者可以自由使用和改进这款模型,为更多应用场景带来突破性的解决方案。
总结
Hugging Face 的 SmolVLM 视觉语言模型以其小巧的体积和强大的性能,为设备端推理带来了全新的可能性。通过高效的内存使用和快速的处理速度,SmolVLM 有望在更多实际应用中大放异彩。未来,随着更多开发者的参与和改进,SmolVLM 将继续推动视觉语言模型的发展,带来更多创新和惊喜。