docscopeOCR-7B-050425-exp开源模型 - 精准实现文档OCR与图像文本转换

首页

Docscopeocr 7B 050425 Exp

由 prithivMLmods 开发

docscopeOCR-7B-050425-exp 是基于 Qwen/Qwen2.5-VL-7B-Instruct 微调的模型，专注于文档级 OCR、长上下文视觉语言理解和数学 LaTeX 格式的精确图像到文本转换。

图像生成文本

Transformers

支持多种语言开源协议:Apache-2.0 #文档级OCR #LaTeX数学转换 #长视频理解

下载量 531

发布时间 : 5/3/2025

模型简介

该模型优化了文档理解、结构化数据提取和视觉推理能力，适用于多种输入格式的文档处理。

模型特点

先进的文档级 OCR

能够从复杂的多页文档（如发票、学术论文、表格和扫描报告）中提取结构化内容。

增强的长上下文视觉语言理解

处理密集的文档布局、长序列的嵌入式文本、表格和图表，并具备连贯的交叉引用理解能力。

跨分辨率的先进性能

在 OCR 和视觉问答基准测试（如 DocVQA、MathVista、RealWorldQA 和 MTVQA）中取得了有竞争力的结果。

长达 20 多分钟的视频理解

支持对长时间视频的详细理解，用于内容总结、问答和多模态推理。

基于视觉的设备交互

通过视觉输入和基于文本的指令，利用上下文理解和决策逻辑实现移动/机器人设备操作。

模型能力

文档级 OCR

视觉语言理解

图像到文本转换

数学 LaTeX 格式化

长视频理解

视觉设备交互

使用案例

文档处理

发票处理

从发票中提取结构化数据

高保真 OCR 提取

学术论文分析

从学术论文中提取内容和图表

结构化内容提取

视觉问答

文档问答

基于文档内容的问答

准确的答案生成

数学表达式提取

从印刷或手写内容中提取数学表达式并进行 LaTeX 格式化

精确的数学表达式转换

视频理解

视频内容总结

对长时间视频进行内容总结

详细的视频理解

🚀 docscopeOCR-7B-050425-exp

docscopeOCR-7B-050425-exp 模型是 Qwen/Qwen2.5-VL-7B-Instruct 的微调版本，针对 文档级光学字符识别（OCR）、长上下文视觉语言理解 以及 带有数学 LaTeX 格式的精确图像到文本转换 进行了优化。该模型基于 Qwen2.5-VL 架构构建，显著提升了跨多种输入格式的文档理解、结构化数据提取和视觉推理能力。

🚀 快速开始

使用 Transformers 库快速开始

from transformers import Qwen2_5_VLForConditionalGeneration, AutoTokenizer, AutoProcessor
from qwen_vl_utils import process_vision_info

model = Qwen2_5_VLForConditionalGeneration.from_pretrained(
    "prithivMLmods/docscopeOCR-7B-050425-exp", torch_dtype="auto", device_map="auto"
)

processor = AutoProcessor.from_pretrained("prithivMLmods/docscopeOCR-7B-050425-exp")

messages = [
    {
        "role": "user",
        "content": [
            {
                "type": "image",
                "image": "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-VL/assets/demo.jpeg",
            },
            {"type": "text", "text": "Describe this image."},
        ],
    }
]

text = processor.apply_chat_template(
    messages, tokenize=False, add_generation_prompt=True
)
image_inputs, video_inputs = process_vision_info(messages)
inputs = processor(
    text=[text],
    images=image_inputs,
    videos=video_inputs,
    padding=True,
    return_tensors="pt",
)
inputs = inputs.to("cuda")

generated_ids = model.generate(**inputs, max_new_tokens=128)
generated_ids_trimmed = [
    out_ids[len(in_ids):] for in_ids, out_ids in zip(inputs.input_ids, generated_ids)
]
output_text = processor.batch_decode(
    generated_ids_trimmed, skip_special_tokens=True, clean_up_tokenization_spaces=False
)
print(output_text)

✨ 主要特性

先进的文档级 OCR：能够从复杂的多页文档（如发票、学术论文、表格和扫描报告）中提取结构化内容。
增强的长上下文视觉语言理解：旨在处理密集的文档布局、长序列的嵌入式文本、表格和图表，并具备连贯的交叉引用理解能力。
跨分辨率的先进性能：在 OCR 和视觉问答基准测试（如 DocVQA、MathVista、RealWorldQA 和 MTVQA）中取得了有竞争力的结果。
长达 20 多分钟的视频理解：支持对长时间视频的详细理解，用于内容总结、问答和多模态推理。
基于视觉的设备交互：通过视觉输入和基于文本的指令，利用上下文理解和决策逻辑实现移动/机器人设备操作。

🔧 技术细节

训练详情

属性	详情
数据集大小	274,209 个样本（数据集的模块化组合）
模型架构	`Qwen2_5_VLForConditionalGeneration`
硬件	2 × NVIDIA A100 SXM（32 vCPUs）
总磁盘空间	170,000 MB
训练时间	9,020 秒（约 2.51 小时）
学习率	1e-5
调度器	线性衰减
预热步数	750
精度	bfloat16

⚠️ 重要提示

开放数据集的图像文本响应将很快更新。

📚 详细文档

预期用途

此模型适用于以下场景：

从文档、表格、收据以及印刷或扫描材料中进行高保真 OCR。
用于教育和企业应用的基于图像和文档的问答。
从印刷或手写内容中提取数学表达式并进行 LaTeX 格式化。
从长文档、幻灯片和多模态输入中进行检索和总结。
用于全球用例的多语言 OCR 和结构化内容提取。
具有视觉引导上下文交互的机器人或移动自动化。

局限性

在极低质量或被遮挡的图像上，性能可能会下降。
由于计算需求，未针对低资源或边缘设备上的实时应用进行优化。
在不常见或低资源语言/脚本上的准确性可能会有所不同。
长视频处理可能需要大量内存，并且未针对流媒体应用进行优化。
视觉令牌设置会影响性能；次优配置可能会影响结果。
在极少数情况下，输出可能包含幻觉或上下文不一致的信息。

📄 许可证

本项目采用 Apache-2.0 许可证。

📖 参考文献

DocVLM: Make Your VLM an Efficient Reader https://arxiv.org/pdf/2412.08746v1
YaRN: Efficient Context Window Extension of Large Language Models
https://arxiv.org/pdf/2309.00071
Qwen2-VL: Enhancing Vision-Language Model’s Perception of the World at Any Resolution
https://arxiv.org/pdf/2409.12191
Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
https://arxiv.org/pdf/2308.12966
A Comprehensive and Challenging OCR Benchmark for Evaluating Large Multimodal Models in Literacy https://arxiv.org/pdf/2412.02210