MLCD-ViT-bigG开源模型 - 免费部署助力文档理解与视觉问答任务

首页

Mlcd Vit Bigg Patch14 448

由 DeepGlint-AI 开发

MLCD-ViT-bigG是一款采用二维旋转位置编码(RoPE2D)增强的先进视觉Transformer模型，在文档理解和视觉问答任务中表现卓越。

文字识别

Safetensors

开源协议:MIT #文档视觉问答 #二维旋转位置编码 #高精度视觉理解

下载量 1,517

发布时间 : 2/12/2025

模型简介

该模型由深度求索AI开发，采用二维旋转位置编码(RoPE2D)增强的视觉Transformer架构，专门用于处理复杂视觉-语言交互任务，在文档理解和视觉问答方面表现出色。

模型特点

二维旋转位置编码(RoPE2D)

采用创新的二维旋转位置编码技术，增强了模型对空间位置信息的理解能力

卓越的文档理解能力

在文档理解和视觉问答任务中表现优于同类模型

高分辨率处理

支持448px高分辨率图像输入，能捕捉更精细的视觉特征

模型能力

图像特征提取

文档理解

视觉问答

图表分析

OCR增强

使用案例

文档处理

文档问答

从复杂文档中提取信息并回答问题

在DocVQA数据集上达到83.34%的准确率

表格理解

解析和理解文档中的表格数据

视觉问答

图表分析

理解和回答关于图表的问题

在ChartQA数据集上达到73.80%的准确率

信息提取

从图像中提取结构化信息

在InfoVQA数据集上达到46.59%的准确率

🚀 MLCD-ViT-bigG模型卡片

MLCD-ViT-bigG是一款先进的视觉Transformer模型，它采用了二维旋转位置嵌入（RoPE2D）技术，在文档理解和视觉问答任务中表现卓越。该模型由深醒科技（DeepGlint AI）研发，在处理复杂的视觉 - 语言交互方面展现出非凡的能力。

⚠️ 重要提示

LLaVA-NeXT 和 transformers 现在支持 MLCD-ViT-bigG-14-448px。

💡 使用建议

我们采用了官方的 LLaVA-NeXT 和官方训练数据集 LLaVA-NeXT-Data 来评估基础视觉模型。语言模型使用的是 Qwen2.5-7B。

✨ 主要特性

MLCD-ViT-bigG模型具有以下显著特性：

采用2D Rotary Position Embedding (RoPE2D) 技术，提升模型性能。
在文档理解和视觉问答任务中表现出色。
支持与 LLaVA-NeXT 和 transformers 集成。

📦 安装指南

pip install torch transformers
git clone https://github.com/deepglint/unicom
cd unicom/mlcd

💻 使用示例

基础用法

from vit_rope2d_hf import MLCDVisionModel
from transformers import CLIPImageProcessor
from PIL import Image
import requests
import torch

# Load model and processor
model = MLCDVisionModel.from_pretrained("DeepGlint-AI/mlcd-vit-bigG-patch14-448")
processor = CLIPImageProcessor.from_pretrained("DeepGlint-AI/mlcd-vit-bigG-patch14-448")

# Process single image
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
inputs = processor(images=image, return_tensors="pt")

# Get visual features
with torch.no_grad():
    outputs = model(**inputs)
features = outputs.last_hidden_state

print(f"Extracted features shape: {features.shape}")

📚 详细文档

视觉塔	RoPE2D	ChartQA	DocVQA	InfoVQA	OCRBench	MMMU
CLIP (ViT-L-14-336px)	×	66.52	75.21	38.88	525.00	44.20
SigLIP (ViT-SO400M-384px)	×	69.28	76.71	41.38	554.00	46.78
DFN5B (ViT-H-14-378px)	×	64.36	70.87	38.59	473.00	48.00
MLCD (ViT-L-14-336px)	×	67.84	76.46	43.48	531.00	44.30
MLCD (ViT-bigG-14-336px)	√	71.07	79.63	44.38	572.00	46.78
MLCD (ViT-bigG-14-448px)	√	73.80	83.34	46.59	582.00	46.00

📄 许可证

本项目采用 MIT 许可证。

📚 引用

如果您在研究中使用了本模型，请使用以下 BibTeX 引用：

@inproceedings{anxiang_2024_mlcd,
  title={Multi-label Cluster Discrimination for Visual Representation Learning},
  author={An, Xiang and Yang, Kaicheng and Dai, Xiangzi and Feng, Ziyong and Deng, Jiankang},
  booktitle={ECCV},
  year={2024}
}