文档理解

# 文档理解

Qwen2.5 VL 7B Instruct Quantized.w8a8

Qwen2.5-VL-7B-Instruct的量化版本，支持视觉-文本输入和文本输出，通过INT8权重量化优化推理效率

图像生成文本

Transformers 英语

Qwen2.5 VL 3B Instruct FP8 Dynamic

Qwen2.5-VL-3B-Instruct的FP8量化版本，支持视觉-文本输入和文本输出，优化了推理效率。

文本生成图像

Transformers 英语

H2ovl Mississippi 800m

H2O.ai推出的8亿参数视觉语言模型，专注于OCR和文档理解，性能优异

图像生成文本

Transformers 英语

Idefics3 8B Llama3

Idefics3是一个开源的多模态模型，能够处理任意序列的图像和文本输入并生成文本输出。它在OCR、文档理解和视觉推理方面有显著提升。

图像生成文本

Transformers 英语

Donut 是一个基于 Transformer 的图像转文本模型，能够从图像中提取和生成文本内容。

图像生成文本

Fine Tuned Rvl Cdip

基于microsoft/layoutlmv3-base模型在文档图像分类任务上微调的版本，在评估集上F1分数达到0.8177

Donut Base Handwriting Recognition

基于naver-clova-ix/donut-base微调的手写识别模型

Docllm Baichuan2 7b

DocLLM_reimplementation 是一个针对文档理解任务的大语言模型实现项目，旨在重新实现和改进文档理解能力。

大型语言模型

JinghuiLuAstronaut

基于Yazawa/donut-base-sroie微调的文档理解模型，适用于结构化文档信息提取任务

Donut Receipt V3

基于naver-clova-ix/donut-base微调的模型，具体用途未明确说明

大型语言模型

Donut Receipt V2

基于naver-clova-ix/donut-base微调的模型，可能用于收据识别或文档理解任务

大型语言模型

Donut Base Sroie

基于naver-clova-ix/donut-base在图像文件夹数据集上微调的模型，具体用途未明确说明

Donut Trained Example 3

基于Donut架构的微调模型，具体用途和功能需要更多信息

大型语言模型

Donut Trained Example 2

基于naver-clova-ix/donut-base微调的模型，具体用途未明确说明

大型语言模型

Donut Base Receipt V3

基于naver-clova-ix/donut-base微调的收据识别模型

大型语言模型

Donut Base Receipt

基于naver-clova-ix/donut-base微调的收据识别模型

大型语言模型

基于naver-clova-ix/donut-base微调的模型，具体用途未明确说明

大型语言模型

这是一个基于CORD-v2数据集微调的Donut模型，专为图像转文本任务设计，平均准确率达到0.901。

图像生成文本

Layoutlmv3 Finetuned Funsd

基于microsoft/layoutlmv3-base在nielsr/funsd-layoutlmv3数据集上微调的文档理解模型

Donut Base Sroie

该模型是基于naver-clova-ix/donut-base在图像文件夹数据集上微调的版本，适用于文档理解任务。

基于naver-clova-ix/donut-base微调的发票处理模型

图像生成文本

Donut Base Label Studio 200 Invoices

基于Donut架构的发票识别模型，在200张发票数据集上微调

Donut Base Sroie

基于philschmid/donut-base-sroie微调的文档理解模型

Lilt Infoxlm Base

LiLT-InfoXLM 是一种语言无关的布局变换器模型，通过将预训练的InfoXLM与语言无关布局变换器（LiLT）结合而成，适用于结构化文档理解任务。

多模态融合

Donut Base Sroie

基于naver-clova-ix/donut-base微调的文档理解模型，适用于图像文本提取任务

基于CORD-v2数据集微调的VisionEncoderDecoder模型，用于文档理解任务

Layoutlmv3 Finetuned Wildreceipt

基于LayoutLMv3-base模型在WildReceipt收据数据集上微调的版本，用于收据关键信息提取任务

Theivaprakasham

Layoutlmv3 Finetuned Invoice

基于LayoutLMv3架构微调的发票信息提取模型，在SROIE数据集上表现出色

Layoutlmv3 Finetuned Invoice

在发票数据集上对LayoutLMv3-base进行微调的版本，用于发票信息提取

Theivaprakasham

Layoutlmv3 Finetuned Cord

基于LayoutLMv3在CORD数据集上微调的文档理解模型，擅长文档标记分类任务

Layoutlmv3 Finetuned Funsd

基于LayoutLMv3-base模型在FUNSD数据集上微调的文档理解模型，擅长表单和文档的标记分类任务

Layoutlmv2 Finetuned Cord

基于microsoft/layoutlmv2-base-uncased模型在未知数据集上微调的版本，适用于文档理解任务

Layoutlmv2 Finetuned Cord

基于LayoutLMv2架构在CORD数据集上微调的文档理解模型，适用于结构化文档信息提取任务

Layoutlmv2 Finetuned Sroie Mod

基于microsoft/layoutlmv2-base-uncased微调的文档理解模型，适用于结构化文档信息提取任务

大型语言模型

Theivaprakasham

Layoutlmv2 Finetuned Funsd

基于 Microsoft LayoutLMv2 模型在 FUNSD 数据集上微调的文档理解模型

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24