月之暗面发布 Kimi 多模态图片理解模型 API,提升图像识别和文字理解能力
Vision 模型的多模态能力
1 月 15 日消息,月之暗面今日发布了 Kimi 多模态图片理解模型 API,全新的多模态图片理解模型 moonshot-v1-vision-preview(以下简称 “Vision 模型”)完善了 moonshot-v1 模型系列的多模态能力。
图像识别的突破
Vision 模型具备强大的图像识别能力,能够识别出图像中的复杂细节和细微差别。无论是食物还是动物,模型都能区分出相似但不同的对象。官方提供的示例中,Vision 模型成功识别并标记了 16 张相似的人眼难以区分的蓝莓松饼和吉娃娃图片,展示了其精确的识别能力。
文字识别和理解
Vision 模型还具备高级的文字识别和理解能力。在 OCR 文字识别和图像理解场景中,比普通的文件扫描和 OCR 识别软件更为准确。例如,收据单和快递单等潦草的手写内容都可以被准确识别。官方示例中,Vision 模型成功提取并分析了一张《某学生期末考试成绩》柱状图中的考试成绩,并从美学风格的角度进行分析,展示了其精准的识别和分析能力。
模型限制说明
虽然 Vision 模型具备多轮对话、流式输出、工具调用、JSON Mode 和 Partial Mode 等特性,但仍有一些功能暂未支持或部分支持:
-
不支持联网搜索
-
不支持创建带有图片内容的 Context Cache,但支持使用已创建成功的 Cache 调用 Vision 模型
-
不支持 URL 格式的图片,目前仅支持使用 base64 编码的图片内容
其他平台更新
此外,月之暗面平台还进行了多项更新:
-
支持组织项目管理功能
-
支持一个企业实体认证多账号
-
增加 File 文件资源管理功能,便于直观管理和查看文件资源
-
优化资源管理列表鼠标悬浮复制功能
-
Context Caching 功能已放开给全量用户,Cache 续期不再收取创建费用
总结
月之暗面发布的 Kimi 多模态图片理解模型 API,通过 Vision 模型的多模态能力,大幅提升了图像识别和文字理解的准确性和精确度。虽然目前仍有一些功能限制,但其在图像和文字识别方面的突破性进展,无疑为各类应用场景带来了更多可能性。随着平台的不断更新和优化,相信未来会有更多强大的功能和特性推出,为用户提供更全面的服务。