M

Minicpm V 2

由 openbmb 开发
MiniCPM-V 2.0是面向高效终端部署的强大多模态大语言模型,基于SigLip-400M和MiniCPM-2.4B构建,通过感知器重采样器连接。
下载量 9,097
发布时间 : 4/9/2024

模型简介

MiniCPM-V 2.0是一个高效的多模态大语言模型,支持图像和文本理解,特别擅长场景文本识别(OCR),在多项基准测试中表现优异。

模型特点

顶尖性能表现
在7B参数量以下模型中,多项基准测试达到最先进水平,OCR能力尤为突出,场景文本理解媲美Gemini Pro
可信回答生成
首个通过多模态RLHF对齐的终端侧模型,防幻觉能力比肩GPT-4V
任意比例高清图像处理
支持1344x1344分辨率的任意比例图像输入,实现对细小物体和光学字符的精准感知
高效部署能力
可在主流GPU和个人电脑高效运行,甚至能部署于手机等移动终端
中英双语支持
实现中英文多模态能力均衡发展

模型能力

图像内容理解
场景文本识别
多模态对话
高分辨率图像处理
中英文视觉问答
文档理解
数学视觉推理

使用案例

教育
数学题目解答
识别并解答数学题目中的视觉内容
在MathVista基准测试中表现优异
商业
文档理解
自动理解和提取文档中的关键信息
在DocVQA基准测试中表现优异
移动应用
移动端视觉问答
在手机等移动设备上实现实时视觉问答
已在小米14 Pro等设备上成功部署
AIbase
智启未来,您的人工智能解决方案智库
简体中文