M

Minicpm V 2 6

由 openbmb 开发
MiniCPM-V是一个手机端GPT-4V级多模态大语言模型,支持单图、多图与视频理解,具备视觉、光学字符识别等功能。
下载量 91.52k
发布时间 : 8/4/2024
模型介绍
内容详情
替代品

模型简介

MiniCPM-V是一个多模态大语言模型,能够在手机端实现GPT-4V级别的多模态理解能力,支持单张图片、多张图片以及视频内容的理解与分析。

模型特点

手机端部署
专为手机端优化的多模态大语言模型,实现高效运行。
多模态理解
支持单图、多图和视频内容的理解与分析。
光学字符识别
具备OCR能力,可从图像中提取文本信息。

模型能力

图像理解
视频理解
光学字符识别
多模态对话

使用案例

内容分析
图像内容描述
对上传的图片进行内容分析和描述生成。
生成准确的图片内容描述文本。
视频内容理解
分析视频内容并生成摘要或关键帧描述。
提取视频关键信息并生成文本摘要。
文档处理
图像文字识别
从包含文字的图片中提取文本内容。
准确识别并提取图片中的文字信息。