D

Docscopeocr 7B 050425 Exp

由 prithivMLmods 开发
docscopeOCR-7B-050425-exp 是基于 Qwen/Qwen2.5-VL-7B-Instruct 微调的模型,专注于文档级 OCR、长上下文视觉语言理解和数学 LaTeX 格式的精确图像到文本转换。
下载量 531
发布时间 : 5/3/2025

模型简介

该模型优化了文档理解、结构化数据提取和视觉推理能力,适用于多种输入格式的文档处理。

模型特点

先进的文档级 OCR
能够从复杂的多页文档(如发票、学术论文、表格和扫描报告)中提取结构化内容。
增强的长上下文视觉语言理解
处理密集的文档布局、长序列的嵌入式文本、表格和图表,并具备连贯的交叉引用理解能力。
跨分辨率的先进性能
在 OCR 和视觉问答基准测试(如 DocVQA、MathVista、RealWorldQA 和 MTVQA)中取得了有竞争力的结果。
长达 20 多分钟的视频理解
支持对长时间视频的详细理解,用于内容总结、问答和多模态推理。
基于视觉的设备交互
通过视觉输入和基于文本的指令,利用上下文理解和决策逻辑实现移动/机器人设备操作。

模型能力

文档级 OCR
视觉语言理解
图像到文本转换
数学 LaTeX 格式化
长视频理解
视觉设备交互

使用案例

文档处理
发票处理
从发票中提取结构化数据
高保真 OCR 提取
学术论文分析
从学术论文中提取内容和图表
结构化内容提取
视觉问答
文档问答
基于文档内容的问答
准确的答案生成
数学表达式提取
从印刷或手写内容中提取数学表达式并进行 LaTeX 格式化
精确的数学表达式转换
视频理解
视频内容总结
对长时间视频进行内容总结
详细的视频理解
AIbase
智启未来,您的人工智能解决方案智库
简体中文