olmOCR-7B-thai-v1开源OCR模型 - 高效将PDF图像内容精准转为文本

首页

Olmocr 7B Thai V1

由 Adun 开发

olmOCR是一款基于Qwen2-VL-7B-Instruct微调的光学字符识别模型，专注于将PDF等图像内容转换为文本，并通过微调提升特定场景下的识别准确率。

文字识别

Safetensors

其他#PDF文本识别 #多接口OCR #VLM微调优化

下载量 1,730

发布时间 : 4/19/2025

模型简介

olmOCR是一款光学字符识别（OCR）模型，能够将PDF文件等图像中的内容转换为文本（TEXT），并通过微调进一步提升其在特定场景下的识别准确率和性能。

模型特点

高度可定制

通过微调，可根据不同的业务需求和场景，对模型进行定制化调整。

开源共享

提供模型权重、微调数据集和推理代码，方便开发者进行二次开发和研究。

大量微调数据

基于Vision Language Model进行了250K的微调，使模型具有更好的泛化能力。

多接口支持

支持API和CLI两种使用方式，可通过命令行或API（如vLLM、SGlang）调用模型。

模型能力

图像转文本

PDF内容提取

特定场景OCR优化

使用案例

文档数字化

PDF转文本

将扫描的PDF文档转换为可编辑的文本内容。

提高文档处理效率和可搜索性。

业务自动化

发票识别

自动识别和提取发票中的关键信息。

减少人工输入错误，提高处理速度。

属性	详情
基础模型	Qwen2 - VL - 7B - Instruct
模型类型	光学字符识别（OCR）模型
GitHub 链接	https://github.com/allenai/olmocr

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

uer

2,694

智启未来，您的人工智能解决方案智库

简体中文

Olmocr 7B Thai V1

模型简介

模型特点

模型能力

使用案例

🚀 微调 olmOCR

✨ 主要特性

📋 模型信息

📞 联系信息