G

Granite Vision 3.2 2b

由 unsloth 开发
granite-vision-3.2-2b是一款紧凑高效的视觉语言模型,专为视觉文档理解设计,能够从表格、图表、信息图等中自动提取内容。
下载量 43
发布时间 : 3/14/2025
模型介绍
内容详情
替代品

模型简介

该模型基于精心策划的指令跟随数据集训练而成,包含多样化的公共数据集和针对广泛文档理解及通用图像任务定制的合成数据集。它通过对Granite大语言模型进行图像和文本模态的微调而训练完成。

模型特点

高效视觉文档理解
能够从表格、图表、信息图、绘图、示意图等中自动提取内容
多模态能力
同时处理视觉和文本数据,适用于广泛的业务场景
高性能
在多个文档理解基准测试中表现优于同类模型
轻量级设计
仅2B参数,保持高效的同时提供强大性能

模型能力

表格分析
图表理解
信息图解析
光学字符识别(OCR)
文档内容问答
通用图像理解
视觉问答

使用案例

文档处理
文档问答
基于文档内容回答问题
在DocVQA基准测试中达到0.89准确率
图表分析
从图表中提取和分析数据
在ChartQA基准测试中达到0.87准确率
通用视觉理解
视觉问答
回答关于图像内容的问题
在VQAv2基准测试中达到0.78准确率
真实世界场景理解
理解现实世界图像中的内容
在RealWorldQA基准测试中达到0.63准确率