donut_rus开源俄语文本识别模型 - 免费部署精准识别俄文文学图像文本

首页

Donut Rus

由 Akajackson 开发

基于Transformer架构的端到端俄语文本识别模型，训练于包含10万张俄罗斯文学作品图像的SynthDoG合成数据集

文字识别

Transformers

支持多种语言#俄英双语OCR #端到端文档理解 #文学文本识别

下载量 550

发布时间 : 4/2/2023

模型简介

该模型是一个用于俄语和英语文本识别的Donut模型，采用端到端Transformer架构，特别适用于处理文档图像中的文本内容。

模型特点

多语言支持

支持俄语和英语文本识别，适用于多语言文档处理场景

高效识别

验证集标准化编辑距离(Normed ED)达到0.02239，表现出色

合成数据训练

使用10万张SynthDoG合成数据集训练，文本内容来自俄罗斯文学作品

定制化tokenizer

采用DeepPavlov/xlm-roberta-large-en-ru作为tokenizer，优化俄语处理能力

模型能力

文档图像文本识别

多语言文本提取

端到端文档处理

使用案例

文档处理

多类型文档识别

识别各种格式文档中的文本内容

高精度文本提取

文档问答系统

基于识别的文本内容构建问答系统

文档分类

根据识别内容对文档进行分类

Apache-2.0

Qwen2.5-VL-7B-Abliterated-Caption-it的量化版本，支持多语言图像描述任务。

Nunchaku Flux.1 Dev Colossus

其他

Colossus Project Flux 的 Nunchaku 量化版本，旨在根据文本提示生成高质量图像。该模型在优化推理效率的同时，将性能损失降至最低。

图像生成英语

nunchaku-tech

235

Qwen2.5 VL 7B Abliterated Caption It GGUF

Apache-2.0

这是一个基于Qwen2.5-VL-7B模型的静态量化版本，专注于图像描述生成任务，支持多种语言。

olmOCR-7B-0725-FP8是基于Qwen2.5-VL-7B-Instruct模型，使用olmOCR-mix-0225数据集微调后量化为FP8版本的文档OCR模型。

Lucy-128k是基于Qwen3-1.7B开发的专注于代理式网络搜索和轻量级浏览的模型，在移动设备上也能高效运行。

智启未来，您的人工智能解决方案智库

Donut Rus

模型介绍

内容详情

替代品

模型简介

模型特点

模型能力

使用案例

🚀 俄语文本识别模型Donut

🚀 快速开始

模型信息

模型仓库

✨ 主要特性

精选推荐AI模型