Qari-OCR-0.3开源模型 - 免费部署，直接识别图像中的阿拉伯文字

首页

Qari OCR 0.3 SNAPSHOT VL 2B Instruct Merged

由 NAMAA-Space 开发

专为阿拉伯文光学字符识别（OCR）设计的视觉语言模型，能直接识别图像中的阿拉伯文字。

图像生成文本

Transformers

#阿拉伯文OCR #多模态大模型 #图像文字识别

下载量 467

发布时间 : 4/10/2025

模型简介

该模型基于Qwen2-VL-2B-Instruct微调，专门用于阿拉伯文的光学字符识别任务，提供高效的图像文字识别解决方案。

模型特点

阿拉伯文专用OCR

专为阿拉伯文字符识别优化，提供高精度识别能力。

视觉语言模型

结合视觉和语言理解能力，直接从图像中识别文字。

高效解决方案

为阿拉伯文处理领域提供快速准确的文字识别方案。

模型能力

阿拉伯文图像文字识别

多模态文字理解

高精度OCR

使用案例

文档数字化

阿拉伯文文档扫描

将纸质阿拉伯文文档转换为可编辑的电子文本

高保真度的文字转换

图像文字提取

阿拉伯文图像文字识别

从包含阿拉伯文字的自然图像中提取文字内容

准确的文字识别结果

🚀 阿拉伯文OCR视觉语言模型

本模型专为阿拉伯文光学字符识别（OCR）而设计，能直接识别图像中的阿拉伯文字，为相关领域的文字处理提供了高效的解决方案。

🚀 快速开始

使用以下代码开始使用该模型，但具体代码内容暂未提供。

✨ 主要特性

专为阿拉伯文光学字符识别（OCR）设计。
基于视觉语言模型，可直接用于识别图像中的阿拉伯文字。

📚 详细文档

模型详情

模型描述

这是一个已发布在Hub上的transformers模型的卡片，此模型卡片是自动生成的。

开发者：Ahmed Wasfy、Omer Nacar、Abdelakreem Elkhateb、Mahmoud Reda、Omar Elshehy、Adel Ammar、Wadii Boulila
模型类型：用于OCR的视觉语言模型
语言（NLP）：阿拉伯语
微调基础模型：Qwen2 - VL - 2B - Instruct

模型来源

论文：QARI - OCR: High - Fidelity Arabic Text Recognition through Multimodal Large Language Model Adaptation

用途

直接使用

该模型可直接用于识别图像中的阿拉伯文字。

超出适用范围的使用

此模型专为阿拉伯文设计，对其他语言的识别效果可能不佳。

偏差、风险和局限性

用户（直接用户和下游用户）应了解该模型的风险、偏差和局限性，目前暂无更多建议信息。

训练详情

训练数据

在专门的合成数据集上进行训练。

引用信息

BibTeX：

@misc{QariOCR2025,
  title={QARI-OCR: High-Fidelity Arabic Text Recognition through Multimodal Large Language Model Adaptation},
  author={Ahmed Wasfy, Omer Nacar, Abdelakreem Elkhateb, Mahmoud Reda, Omar Elshehy, Adel Ammar, Wadii Boulila},
  year={2025},
  archivePrefix={arXiv},
  url={https://arxiv.org/abs/2506.02295},
  note={Accessed: 2025-03-03}
}