Q

Qari OCR V0.3 VL 2B Instruct

由 NAMAA-Space 开发
QARI-OCR v0.3 是一款专注于阿拉伯语结构化文档理解的光学字符识别视觉语言模型,基于 Qwen2-VL-2B-Instruct 构建,擅长保留文档布局和格式。
下载量 1,016
发布时间 : 4/10/2025

模型简介

该模型专门用于阿拉伯语光学字符识别,特别擅长处理结构化文档,能够保留HTML标签、文档布局和阿拉伯语的全音符(tashkeel)。

模型特点

布局感知识别
通过HTML/Markdown标签保留文档结构
全音符支持
准确识别阿拉伯语的音符(tashkeel)
多字体处理
在12种不同的阿拉伯字体(14px-100px)上进行训练
结构优先设计
针对包含标题、正文和复杂布局的文档进行了优化
高效训练
在单GPU上使用10k样本仅需11小时
鲁棒性能
能够处理低分辨率和受损的图像

模型能力

阿拉伯语文本识别
文档布局理解
HTML/Markdown结构保留
手写文本识别(初步能力)

使用案例

文档处理
阿拉伯语文档数字化
将纸质阿拉伯语文档转换为数字格式,保留原始布局和格式
高保真度的文本转换,保留HTML/Markdown结构
学术文献处理
处理包含复杂布局和全音符的阿拉伯语学术文献
准确识别文本内容和结构
AIbase
智启未来,您的人工智能解决方案智库
简体中文