I

Idefics2 8b

由 HuggingFaceM4 开发
Idefics2 是一个开源的多模态模型,能够接受任意序列的图像和文本输入并生成文本输出。它在 OCR、文档理解和视觉推理方面有显著提升。
下载量 14.99k
发布时间 : 4/9/2024
模型介绍
内容详情
替代品

模型简介

Idefics2 是一个多模态模型,能够处理图像和文本输入并生成文本输出。它可以回答关于图像的问题、描述视觉内容、基于多张图像创作故事,或仅作为纯语言模型使用。

模型特点

多模态处理能力
能够接受任意序列的图像和文本输入并生成文本输出。
OCR 能力提升
通过整合需要模型转录图像或文档中文本的数据,显著提升了 OCR 能力。
原生分辨率处理
以原生分辨率(最高 980 x 980)和原生宽高比处理图像,避免了传统计算机视觉中将图像调整为固定大小正方形的需求。
子图像分割
允许(可选)子图像分割和传递极高分辨率的图像。

模型能力

图像描述
视觉问答
文档理解
视觉推理
文本生成

使用案例

视觉问答
回答关于图像的问题
根据输入的图像和文本问题,生成准确的回答。
在 TextVQA 验证集上达到 70.4 的准确率。
图像描述
描述视觉内容
根据输入的图像生成详细的描述文本。
文档理解
回答文档问题
根据输入的文档图像和文本问题,生成准确的回答。
在 DocVQA 测试集上达到 67.3 的准确率。