开源 Donut（Horus - OCR）图像转文本模型，轻松从图像中提取和生成文本

首页

Horus OCR

由 TeeA 开发

Donut 是一个基于 Transformer 的图像转文本模型，能够从图像中提取和生成文本内容。

图像生成文本

Transformers

#图像转文本 #文档理解 #视觉问答

下载量 21

发布时间 : 6/12/2024

模型简介

Donut 是一个视觉语言模型，主要用于从图像中提取文本信息，适用于文档理解、表格识别等任务。

模型特点

图像转文本

能够从图像中提取和生成文本内容，适用于文档和表格识别。

基于 Transformer

采用 Transformer 架构，具有强大的视觉和语言处理能力。

模型能力

图像转文本

文档理解

表格识别

使用案例

文档处理

处方识别

从医疗处方图像中提取文本信息。

准确提取处方中的药品名称和剂量。

表格识别

表格数据提取

从图像中的表格提取结构化数据。

生成可编辑的表格格式数据。

🚀 Transformers图像转文本模型

本模型基于🤗 Transformers库开发，利用Donut技术实现图像转文本功能，在视觉领域有广泛应用。

🚀 快速开始

使用以下代码开始使用该模型：

# 此处应替换为实际可运行的代码
# 由于原文未提供，这里暂时占位
# 请根据实际情况补充代码

📚 详细文档

模型详情

模型描述

这是一个已发布在🤗 Hub上的Transformers模型的模型卡片，此模型卡片为自动生成。

属性	详情
开发者	待补充更多信息
资助方（可选）	待补充更多信息
共享方（可选）	待补充更多信息
模型类型	待补充更多信息
语言（NLP）	待补充更多信息
许可证	待补充更多信息
微调基础模型（可选）	待补充更多信息

模型来源（可选）

仓库：待补充更多信息
论文（可选）：待补充更多信息
演示（可选）：待补充更多信息

使用方式

直接使用

此部分介绍模型在不进行微调或集成到更大生态系统/应用中的使用方式。待补充更多信息。

下游使用（可选）

此部分介绍模型在针对特定任务进行微调后，或集成到更大生态系统/应用中的使用方式。待补充更多信息。

超出适用范围的使用

此部分说明模型的误用、恶意使用情况，以及模型效果不佳的使用场景。待补充更多信息。

偏差、风险和局限性

此部分旨在传达技术和社会技术方面的局限性。待补充更多信息。

建议

用户（包括直接用户和下游用户）应了解该模型的风险、偏差和局限性。如需进一步建议，还需补充更多信息。

训练详情

训练数据

此部分应链接到数据集卡片，可能还需简要介绍训练数据的相关信息，以及数据预处理或额外过滤的文档。待补充更多信息。

训练过程

预处理（可选）

待补充更多信息。

训练超参数

训练机制：待补充更多信息（如fp32、fp16混合精度、bf16混合精度、bf16非混合精度、fp16非混合精度、fp8混合精度）

速度、规模、时间（可选）

此部分提供有关吞吐量、开始/结束时间、检查点大小（如适用）等信息。待补充更多信息。

评估

测试数据、因素和指标

测试数据

此部分应尽可能链接到数据集卡片。待补充更多信息。

因素

这些是评估所依据的分类标准，例如子群体或领域。待补充更多信息。

指标

这些是所使用的评估指标，理想情况下应说明使用原因。待补充更多信息。

结果

待补充更多信息。

总结

待补充更多信息。

模型审查（可选）

此部分介绍与模型可解释性相关的工作。待补充更多信息。

环境影响

可使用Lacoste等人（2019）中提出的机器学习影响计算器来估算碳排放。

属性	详情
硬件类型	待补充更多信息
使用时长	待补充更多信息
云服务提供商	待补充更多信息
计算区域	待补充更多信息
碳排放	待补充更多信息