D

Donut Base Finetuned Cord V2

由 Xenova 开发
Donut是一个基于Swin Transformer的视觉文档理解模型,专门针对CORD数据集进行了微调,能够从图像中提取结构化文本信息。
下载量 32
发布时间 : 9/5/2023
模型介绍
内容详情
替代品

模型简介

该模型是基于Donut架构的视觉文档理解模型,经过CORD数据集的微调,能够处理文档图像并提取其中的结构化文本信息。

模型特点

视觉文档理解
能够从文档图像中提取结构化文本信息,适用于各种文档处理场景。
基于Swin Transformer
采用先进的Swin Transformer架构,具有强大的视觉特征提取能力。
网页端兼容
已转换为ONNX格式,可通过Transformers.js在网页端使用。

模型能力

文档图像处理
结构化文本提取
视觉特征识别

使用案例

文档处理
收据信息提取
从收据图像中自动提取商家、金额、日期等结构化信息
提高数据录入效率,减少人工处理
表单识别
识别各种表单中的字段和内容
实现表单数据的自动化处理