Layoutlmv2 Base Uncased Finetuned Docvqa

L

Layoutlmv2 Base Uncased Finetuned Docvqa

由 madiltalay 开发

基于LayoutLMv2架构的文档视觉问答模型，专为文档理解任务微调

文本生成图像

#文档视觉问答 #多模态理解 #布局感知

下载量 14

发布时间 : 6/22/2023

模型简介

该模型是LayoutLMv2基础版在DocVQA任务上的微调版本，能够理解文档布局和文本内容，回答关于文档的问题。

模型特点

多模态理解能力

同时处理文本内容和文档布局信息

文档专用优化

针对文档视觉问答任务进行专门微调

端到端训练

直接从原始文档图像学习文本和视觉特征

模型能力

文档理解

视觉问答

文本定位

布局分析

使用案例

文档处理

表单信息提取

从结构化文档中提取特定字段信息

文档问答系统

回答用户关于文档内容的自然语言问题

企业自动化

发票处理

自动识别和提取发票中的关键信息

🚀 layoutlmv2-base-uncased_finetuned_docvqa

此模型是 microsoft/layoutlmv2-base-uncased 在 None 数据集上的微调版本。它在评估集上取得了以下结果：

损失值：3.6030

🚀 快速开始

本模型是预训练模型微调后的版本，可直接用于相关任务。你可以根据需求进一步调整参数或进行二次微调。

📄 许可证

本模型采用 CC BY-NC-SA 4.0 许可证。

🔧 技术细节

训练超参数

训练过程中使用了以下超参数：

学习率：5e - 05
训练批次大小：4
评估批次大小：8
随机种子：42
优化器：Adam（β1 = 0.9，β2 = 0.999，ε = 1e - 08）
学习率调度器类型：线性
训练轮数：10

训练结果

训练损失	轮数	步数	验证损失
5.326	0.22	50	4.4949
4.292	0.44	100	3.9510
3.9419	0.66	150	3.9100
3.6895	0.88	200	3.5035
3.4052	1.11	250	3.4030
3.1405	1.33	300	3.2100
2.8966	1.55	350	2.9803
2.7874	1.77	400	2.7811
2.5385	1.99	450	2.4748
2.1532	2.21	500	2.5843
1.994	2.43	550	2.5459
1.8322	2.65	600	2.2316
1.7005	2.88	650	2.1888
1.4758	3.1	700	2.4578
1.3543	3.32	750	2.3368
1.1939	3.54	800	2.9737
1.294	3.76	850	2.4907
1.4519	3.98	900	1.9276
1.0517	4.2	950	2.9981
0.8171	4.42	1000	2.5618
1.0456	4.65	1050	2.3139
0.9222	4.87	1100	2.4243
0.758	5.09	1150	2.8167
0.7203	5.31	1200	2.9342
0.6748	5.53	1250	2.6396
0.6821	5.75	1300	2.5629
0.5898	5.97	1350	3.0276
0.3135	6.19	1400	3.2611
0.4407	6.42	1450	3.1793
0.5303	6.64	1500	3.0511
0.5294	6.86	1550	3.1106
0.3149	7.08	1600	3.2933
0.199	7.3	1650	3.4207
0.164	7.52	1700	3.4379
0.5258	7.74	1750	3.1339
0.336	7.96	1800	3.2394
0.3294	8.19	1850	3.0956
0.1587	8.41	1900	3.4282
0.2375	8.63	1950	3.3718
0.117	8.85	2000	3.5646
0.2873	9.07	2050	3.5213
0.2206	9.29	2100	3.5387
0.2503	9.51	2150	3.5683
0.0763	9.73	2200	3.6119
0.1344	9.96	2250	3.6030

框架版本

Transformers 4.30.2
Pytorch 2.0.1 + cu118
Datasets 2.13.1
Tokenizers 0.13.3

信息表格

属性	详情
模型类型	layoutlmv2-base-uncased 微调版本
训练数据	None 数据集

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24