文档理解
Qwen2.5 VL 7B Instruct Quantized.w8a8
Apache-2.0
Qwen2.5-VL-7B-Instruct的量化版本,支持视觉-文本输入和文本输出,通过INT8权重量化优化推理效率
图像生成文本
Transformers
英语
Q
RedHatAI
1,992
3
Qwen2.5 VL 3B Instruct FP8 Dynamic
Apache-2.0
Qwen2.5-VL-3B-Instruct的FP8量化版本,支持视觉-文本输入和文本输出,优化了推理效率。
文本生成图像
Transformers
英语
Q
RedHatAI
112
1
H2ovl Mississippi 800m
Apache-2.0
H2O.ai推出的8亿参数视觉语言模型,专注于OCR和文档理解,性能优异
图像生成文本
Transformers
英语
H
h2oai
77.67k
33
Idefics3 8B Llama3
Apache-2.0
Idefics3是一个开源的多模态模型,能够处理任意序列的图像和文本输入并生成文本输出。
图像生成文本
Transformers
英语
I
HuggingFaceM4
45.86k
277
Horus OCR
Donut 是一个基于 Transformer 的图像转文本模型,能够从图像中提取和生成文本内容。
图像生成文本
Transformers
H
TeeA
21
0
Fine Tuned Rvl Cdip
基于microsoft/layoutlmv3-base模型在文档图像分类任务上微调的版本,在评估集上F1分数达到0.8177
文字识别
Transformers
F
davidhajdu
21
1
Donut Base Handwriting Recognition
MIT
基于naver-clova-ix/donut-base微调的手写识别模型
文字识别
Transformers
D
Cdywalst
140
1
Docllm Baichuan2 7b
DocLLM_reimplementation 是一个针对文档理解任务的大语言模型实现项目,旨在重新实现和改进文档理解能力。
大型语言模型
Transformers
D
JinghuiLuAstronaut
185
5
Donut 240202
MIT
基于Yazawa/donut-base-sroie微调的文档理解模型,适用于结构化文档信息提取任务
文字识别
Transformers
D
Yazawa
93
0
Donut Receipt V3
MIT
基于naver-clova-ix/donut-base微调的模型,具体用途未明确说明
大型语言模型
Transformers
D
mychen76
28
0
Donut Receipt V2
MIT
基于naver-clova-ix/donut-base微调的模型,可能用于收据识别或文档理解任务
大型语言模型
Transformers
D
mychen76
31
0
Donut Base Sroie
MIT
基于naver-clova-ix/donut-base在图像文件夹数据集上微调的模型,具体用途未明确说明
文字识别
Transformers
D
iamkhadke
13
0
Donut Trained Example 3
MIT
基于Donut架构的微调模型,具体用途和功能需要更多信息
大型语言模型
Transformers
D
anarenteriare
14
0
Donut Trained Example 2
MIT
基于naver-clova-ix/donut-base微调的模型,具体用途未明确说明
大型语言模型
Transformers
D
anarenteriare
13
0
Donut Base Receipt V3
MIT
基于naver-clova-ix/donut-base微调的收据识别模型
大型语言模型
Transformers
D
hyunguk1
13
0
Donut Base Receipt
MIT
基于naver-clova-ix/donut-base微调的收据识别模型
大型语言模型
Transformers
D
hyunguk1
19
0
Donut Base Ru
MIT
基于naver-clova-ix/donut-base微调的模型,具体用途未明确说明
大型语言模型
Transformers
D
Nyaaneet
21
1
Donut Demo
MIT
这是一个基于CORD-v2数据集微调的Donut模型,专为图像转文本任务设计,平均准确率达到0.901。
图像生成文本
Transformers
D
katanaml
24
3
Layoutlmv3 Finetuned Funsd
基于microsoft/layoutlmv3-base在nielsr/funsd-layoutlmv3数据集上微调的文档理解模型
文字识别
Transformers
L
Narsil
799
0
Donut Base Sroie
MIT
该模型是基于naver-clova-ix/donut-base在图像文件夹数据集上微调的版本,适用于文档理解任务。
文字识别
Transformers
D
unstructuredio
31
1
Dof Invoice 1
MIT
基于naver-clova-ix/donut-base微调的发票处理模型
图像生成文本
Transformers
D
Sebabrata
13
0
Donut Base Label Studio 200 Invoices
MIT
基于Donut架构的发票识别模型,在200张发票数据集上微调
文字识别
Transformers
D
Prem11100
18
0
Donut Base Sroie
MIT
基于philschmid/donut-base-sroie微调的文档理解模型
文字识别
Transformers
D
Prem11100
13
0
Lilt Infoxlm Base
MIT
LiLT-InfoXLM 是一种语言无关的布局变换器模型,通过将预训练的InfoXLM与语言无关布局变换器(LiLT)结合而成,适用于结构化文档理解任务。
多模态融合
Transformers
L
SCUT-DLVCLab
110
5
Donut Base Sroie
MIT
基于naver-clova-ix/donut-base微调的文档理解模型,适用于图像文本提取任务
文字识别
Transformers
D
philschmid
185
3
Donut Demo
MIT
基于CORD-v2数据集微调的VisionEncoderDecoder模型,用于文档理解任务
文字识别
Transformers
D
nielsr
56
1
Layoutlmv3 Finetuned Wildreceipt
基于LayoutLMv3-base模型在WildReceipt收据数据集上微调的版本,用于收据关键信息提取任务
文字识别
Transformers
L
Theivaprakasham
118
3
Layoutlmv3 Finetuned Invoice
基于LayoutLMv3架构微调的发票信息提取模型,在SROIE数据集上表现出色
文字识别
Transformers
L
ronak1998
71
3
Layoutlmv3 Finetuned Invoice
在发票数据集上对LayoutLMv3-base进行微调的版本,用于发票信息提取
文字识别
Transformers
L
Theivaprakasham
896
20
Layoutlmv3 Finetuned Cord
基于LayoutLMv3在CORD数据集上微调的文档理解模型,擅长文档标记分类任务
文字识别
Transformers
L
nielsr
617
12
Layoutlmv3 Finetuned Funsd
基于LayoutLMv3-base模型在FUNSD数据集上微调的文档理解模型,擅长表单和文档的标记分类任务
文字识别
Transformers
L
nielsr
2,420
25
Layoutlmv2 Finetuned Cord
基于microsoft/layoutlmv2-base-uncased模型在未知数据集上微调的版本,适用于文档理解任务
文字识别
Transformers
L
speydach
17
0
Layoutlmv2 Finetuned Cord
基于LayoutLMv2架构在CORD数据集上微调的文档理解模型,适用于结构化文档信息提取任务
文字识别
Transformers
L
katanaml
29
3
Layoutlmv2 Finetuned Sroie Mod
基于microsoft/layoutlmv2-base-uncased微调的文档理解模型,适用于结构化文档信息提取任务
大型语言模型
Transformers
L
Theivaprakasham
37
1
Layoutlmv2 Finetuned Funsd
基于 Microsoft LayoutLMv2 模型在 FUNSD 数据集上微调的文档理解模型
文字识别
Transformers
L
nielsr
1,319
13