M

Minicpm V 2 6

由 jchevallard 开发
MiniCPM-V 2.6是MiniCPM-V系列最新最强的多模态大模型,支持单图、多图和视频理解,具有领先的性能和极致效率。
下载量 118
发布时间 : 8/30/2024
模型介绍
内容详情
替代品

模型简介

MiniCPM-V 2.6是一个基于SigLip-400M和Qwen2-7B构建的多模态大模型,总参数量达80亿。该模型支持单图、多图和视频理解,具有强大的OCR和多语言能力,适用于多种视觉和语言任务。

模型特点

领先性能
在OpenCompass综合评估中,MiniCPM-V 2.6平均得分达65.2分,超越GPT-4o mini、GPT-4V、Gemini 1.5 Pro和Claude 3.5 Sonnet等商用模型的单图理解能力。
多图理解与上下文学习
支持跨多图对话推理,在Mantis-Eval、BLINK、Mathverse mv和Sciverse mv等多图基准上达到SOTA水平,并展现出优秀的上下文学习能力。
视频理解
支持视频输入,可进行时空信息对话与密集描述。在Video-MME基准上超越GPT-4V、Claude 3.5 Sonnet和LLaVA-NeXT-Video-34B。
强大OCR与其他能力
支持任意长宽比图像(最高1344x1344/180万像素)处理,在OCRBench上达到SOTA水平,超越GPT-4o、GPT-4V和Gemini 1.5 Pro等商用模型。
极致效率
具备SOTA级token密度,处理180万像素图像仅生成640个token,比主流模型少75%,直接提升推理速度、首token延迟、内存占用和功耗表现。
开箱即用
提供多种使用方式,包括本地CPU推理、量化模型、vLLM推理、新领域/任务微调、快速本地WebUI部署和在线演示。

模型能力

单图理解
多图理解
视频理解
OCR
多语言支持
上下文学习
跨图对话推理
时空信息对话
密集描述

使用案例

图像理解
OCR识别
识别图像中的文字信息
在OCRBench上达到SOTA水平
多图对比
比较多张图像的异同
在Mantis-Eval、BLINK等多图基准上达到SOTA水平
视频理解
视频内容分析
分析视频中的时空信息
在Video-MME基准上超越GPT-4V、Claude 3.5 Sonnet和LLaVA-NeXT-Video-34B
多语言应用
多语言菜单翻译
翻译图像中的多语言菜单
支持中英德法意韩等多语言