pipeline_tag: 视觉问答
language:
- 英文
- 中文
datasets:
- HaoyeZhang/RLHF-V数据集
- Yirany/UniMM对话数据集
- HuggingFaceM4/VQAv2数据集
- liuhaotian/LLaVA指令150K数据集
GitHub项目 | 在线演示
最新动态
- [2025.01.14] 🔥 开源MiniCPM-o 2.6,相比MiniCPM-V 2.6有显著性能提升,支持实时语音对话和多模态直播,立即体验。
- [2024.08.06] 🔥 开源MiniCPM-V 2.6,在单图、多图和视频理解上超越GPT-4V,继承MiniCPM-Llama3-V 2.5热门功能,支持iPad实时视频理解。
- [2024.05.20] 🔥 发布GPT-4V级多模态模型MiniCPM-Llama3-V 2.5。
- [2024.04.23] MiniCPM-V 2.0支持vLLM加速!
- [2024.04.18] 我们在HuggingFace Space上线MiniCPM-V 2.0演示!
- [2024.04.17] MiniCPM-V 2.0支持部署网页版演示!
- [2024.04.15] MiniCPM-V 2.0支持通过SWIFT框架微调!
- [2024.04.12] 开源MiniCPM-V-2.0,在场景文本理解上媲美Gemini Pro,并在OpenCompass多模态榜单上超越Qwen-VL-Chat 9.6B和Yi-VL 34B(覆盖11个主流评测集)。查看技术博客。
MiniCPM-V 2.0
MiniCPM-V 2.8B是面向高效终端部署的强大多模态大语言模型,基于SigLip-400M和MiniCPM-2.4B构建,通过感知器重采样器连接。最新版本MiniCPM-V 2.0具有以下特性:
-
🔥 顶尖性能表现
在7B参数量以下模型中,MiniCPM-V 2.0在OCRBench、TextVQA、MME、MMB、MathVista等多项基准测试中达到最先进水平,在OpenCompass综合评测(覆盖11个基准)中超越Qwen-VL-Chat 9.6B、CogVLM-Chat 17.4B和Yi-VL 34B。其OCR能力尤为突出,场景文本理解媲美Gemini Pro,在开源模型中OCRBench得分第一。
-
🏆 可信回答生成
针对多模态模型常见的幻觉问题,MiniCPM-V 2.0是首个通过多模态RLHF对齐的终端侧模型(采用RLHF-V [CVPR'24]技术),在Object HalBench上防幻觉能力比肩GPT-4V。
-
🌟 任意比例高清图像处理
支持1344x1344分辨率(180万像素)的任意比例图像输入,通过LLaVA-UHD技术实现对细小物体和光学字符的精准感知。
-
⚡️ 高效部署能力
可在主流GPU和个人电脑高效运行,甚至能部署于手机等移动终端。通过感知器重采样器压缩图像表征,使高分辨率图像推理时仍保持优异的内存效率和速度。
-
🙌 中英双语支持
基于VisCPM [ICLR'24]技术实现中英文多模态能力均衡发展。
性能评测
在TextVQA、DocVQA、OCRBench、OpenCompass、MME、MMBench、MMMU、MathVista、LLaVA Bench、Object HalBench的测试结果。
案例展示
我们在终端设备部署MiniCPM-V 2.0,演示视频为小米14 Pro原生录屏未剪辑。
在线演示
点击体验MiniCPM-V 2.0演示。
手机端部署
MiniCPM-V 2.0可部署于Android和HarmOS系统的手机。立即尝试。
使用vLLM加速推理
点击查看vLLM推理指南
由于我们的vLLM合并请求仍在审核中,请按以下步骤使用定制版vLLM:
- 克隆定制仓库:
git clone https://github.com/OpenBMB/vllm.git
- 安装vLLM:
cd vllm
pip install -e .
- 安装timm库:
pip install timm=0.9.10
- 运行示例:
python examples/minicpmv_example.py
使用指南
在Nvidia GPU或配备MPS的Mac(Apple芯片或AMD GPU)上使用Huggingface transformers推理。Python 3.10环境要求:
Pillow==10.1.0
timm==0.9.10
torch==2.1.2
torchvision==0.16.2
transformers==4.36.0
sentencepiece==0.1.99
import torch
from PIL import Image
from transformers import AutoModel, AutoTokenizer
model = AutoModel.from_pretrained('openbmb/MiniCPM-V-2', trust_remote_code=True, torch_dtype=torch.bfloat16)
model = model.to(device='cuda', dtype=torch.bfloat16)
tokenizer = AutoTokenizer.from_pretrained('openbmb/MiniCPM-V-2', trust_remote_code=True)
model.eval()
image = Image.open('xx.jpg').convert('RGB')
question = '图像内容是什么?'
msgs = [{'role': 'user', 'content': question}]
res, context, _ = model.chat(
image=image,
msgs=msgs,
context=None,
tokenizer=tokenizer,
sampling=True,
temperature=0.7
)
print(res)
更多用法详见GitHub项目。
MiniCPM-V 1.0
MiniCPM-V 1.0相关信息请访问此处。
许可协议
模型许可
免责声明
- MiniCPM-V 2.0作为大语言模型,其生成内容基于海量文本训练,不具备价值判断能力,输出不代表开发者立场
- 开发者不对模型开源使用引发的任何问题负责,包括但不限于数据安全、舆论风险及模型误用导致的后果
团队其他多模态项目
VisCPM | RLHF-V | LLaVA-UHD
引用文献
若觉得工作有帮助,请引用以下论文:
@article{yu2023rlhf,
title={Rlhf-v: Towards trustworthy mllms via behavior alignment from fine-grained correctional human feedback},
author={Yu, Tianyu and Yao, Yuan and Zhang, Haoye and He, Taiwen and Han, Yifeng and Cui, Ganqu and Hu, Jinyi and Liu, Zhiyuan and Zheng, Hai-Tao and Sun, Maosong and others},
journal={arXiv preprint arXiv:2312.00849},
year={2023}
}
@article{viscpm,
title={Large Multilingual Models Pivot Zero-Shot Multimodal Learning across Languages},
author={Jinyi Hu and Yuan Yao and Chongyi Wang and Shan Wang and Yinxu Pan and Qianyu Chen and Tianyu Yu and Hanghao Wu and Yue Zhao and Haoye Zhang and Xu Han and Yankai Lin and Jiao Xue and Dahai Li and Zhiyuan Liu and Maosong Sun},
journal={arXiv preprint arXiv:2308.12038},
year={2023}
}
@article{xu2024llava-uhd,
title={{LLaVA-UHD}: an LMM Perceiving Any Aspect Ratio and High-Resolution Images},
author={Xu, Ruyi and Yao, Yuan and Guo, Zonghao and Cui, Junbo and Ni, Zanlin and Ge, Chunjiang and Chua, Tat-Seng and Liu, Zhiyuan and Huang, Gao},
journal={arXiv preprint arXiv:2403.11703},
year={2024}
}
@article{yao2024minicpmvgpt4vlevelmllm,
title={MiniCPM-V: A GPT-4V Level MLLM on Your Phone},
author={Yao, Yuan and Yu, Tianyu and Zhang, Ao and Wang, Chongyi and Cui, Junbo and Zhu, Hongji and Cai, Tianchi and Li, Haoyu and Zhao, Weilin and He, Zhihui and Chen, Qianyu and Zhou, Huarong and Zou, Zhensheng and Zhang, Haoye and Hu, Shengding and Zheng, Zhi and Zhou, Jie and Cai, Jie and Han, Xu and Zeng, Guoyang and Li, Dahai and Liu, Zhiyuan and Sun, Maosong},
journal={arXiv preprint arXiv:2408.01800},
year={2024},
url={https://arxiv.org/abs/2408.01800},
}