Docscopeocr 7B 050425 Exp
D
Docscopeocr 7B 050425 Exp
由 prithivMLmods 开发
docscopeOCR-7B-050425-exp 是基于 Qwen/Qwen2.5-VL-7B-Instruct 微调的模型,专注于文档级 OCR、长上下文视觉语言理解和数学 LaTeX 格式的精确图像到文本转换。
下载量 531
发布时间 : 5/3/2025
模型简介
该模型优化了文档理解、结构化数据提取和视觉推理能力,适用于多种输入格式的文档处理。
模型特点
先进的文档级 OCR
能够从复杂的多页文档(如发票、学术论文、表格和扫描报告)中提取结构化内容。
增强的长上下文视觉语言理解
处理密集的文档布局、长序列的嵌入式文本、表格和图表,并具备连贯的交叉引用理解能力。
跨分辨率的先进性能
在 OCR 和视觉问答基准测试(如 DocVQA、MathVista、RealWorldQA 和 MTVQA)中取得了有竞争力的结果。
长达 20 多分钟的视频理解
支持对长时间视频的详细理解,用于内容总结、问答和多模态推理。
基于视觉的设备交互
通过视觉输入和基于文本的指令,利用上下文理解和决策逻辑实现移动/机器人设备操作。
模型能力
文档级 OCR
视觉语言理解
图像到文本转换
数学 LaTeX 格式化
长视频理解
视觉设备交互
使用案例
文档处理
发票处理
从发票中提取结构化数据
高保真 OCR 提取
学术论文分析
从学术论文中提取内容和图表
结构化内容提取
视觉问答
文档问答
基于文档内容的问答
准确的答案生成
数学表达式提取
从印刷或手写内容中提取数学表达式并进行 LaTeX 格式化
精确的数学表达式转换
视频理解
视频内容总结
对长时间视频进行内容总结
详细的视频理解
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98
智启未来,您的人工智能解决方案智库
简体中文