M

Minicpm V 2

由 openbmb 开发
MiniCPM-V 2.0是面向高效终端部署的强大多模态大语言模型,基于SigLip-400M和MiniCPM-2.4B构建,通过感知器重采样器连接。
下载量 9,097
发布时间 : 4/9/2024
模型介绍
内容详情
替代品

模型简介

MiniCPM-V 2.0是一个高效的多模态大语言模型,支持图像和文本理解,特别擅长场景文本识别(OCR),在多项基准测试中表现优异。

模型特点

顶尖性能表现
在7B参数量以下模型中,多项基准测试达到最先进水平,OCR能力尤为突出,场景文本理解媲美Gemini Pro
可信回答生成
首个通过多模态RLHF对齐的终端侧模型,防幻觉能力比肩GPT-4V
任意比例高清图像处理
支持1344x1344分辨率的任意比例图像输入,实现对细小物体和光学字符的精准感知
高效部署能力
可在主流GPU和个人电脑高效运行,甚至能部署于手机等移动终端
中英双语支持
实现中英文多模态能力均衡发展

模型能力

图像内容理解
场景文本识别
多模态对话
高分辨率图像处理
中英文视觉问答
文档理解
数学视觉推理

使用案例

教育
数学题目解答
识别并解答数学题目中的视觉内容
在MathVista基准测试中表现优异
商业
文档理解
自动理解和提取文档中的关键信息
在DocVQA基准测试中表现优异
移动应用
移动端视觉问答
在手机等移动设备上实现实时视觉问答
已在小米14 Pro等设备上成功部署