许可证: cc-by-sa-3.0
语言: 日语
推理: false
LayoutLM-wikipedia-ja 模型
这是一个基于日语文本预训练的LayoutLM模型。
模型详情
模型描述
用途
该模型主要用于微调以完成令牌分类任务。虽然也可以用于掩码语言建模,但这不是其主要用途。关于如何微调模型的说明,请参考https://github.com/nishiwakikazutaka/shinra2022-task2_jrird。请注意,该仓库的说明为日语。
如何开始使用该模型
使用以下代码开始使用该模型。
>>> from transformers import AutoTokenizer, AutoModel
>>> import torch
>>> tokenizer = AutoTokenizer.from_pretrained("jri-advtechlab/layoutlm-wikipedia-ja")
>>> model = AutoModel.from_pretrained("jri-advtechlab/layoutlm-wikipedia-ja")
>>> tokens = tokenizer.tokenize("こんにちは")
>>> normalized_token_boxes = [[637, 773, 693, 782], [693, 773, 749, 782], [749, 773, 775, 782]]
>>>
>>> bbox = [[0, 0, 0, 0]] + normalized_token_boxes + [[1000, 1000, 1000, 1000]]
>>> input_ids = [tokenizer.cls_token_id] \
+ tokenizer.convert_tokens_to_ids(tokens) \
+ [tokenizer.sep_token_id]
>>> attention_mask = [1] * len(input_ids)
>>> token_type_ids = [0] * len(input_ids)
>>> encoding = {
"input_ids": torch.tensor([input_ids]),
"attention_mask": torch.tensor([attention_mask]),
"token_type_ids": torch.tensor([token_type_ids]),
"bbox": torch.tensor([bbox]),
}
>>> outputs = model(**encoding)
训练详情
训练数据
该模型基于日语维基百科进行训练。训练语料作为SHINRA 2022共享任务的训练数据分发。
令牌化与定位
我们使用cl-tohoku/bert-base-japanese-v2的分词器将文本分割为令牌(子词)。每个令牌被包裹在<span>
标签中,其white-space属性设置为no-wrap,并通过获取BoundingClientRect
进行定位。定位过程在Ubuntu 20.04.5 LTS系统上,使用Google Chrome(106.0.5249.119)无头模式,窗口大小为1,280*854进行。
词汇表与cl-tohoku/bert-base-japanese-v2相同。
训练过程
该模型使用掩码视觉语言模型(MVLM)进行训练,但未使用多标签文档分类(MDC)进行训练。这是因为我们认为不同维基百科文章之间没有显著的视觉差异,例如合同与发票之间的差异。
预处理
除2-D位置嵌入外的所有参数均使用cl-tohoku/bert-base-japanese-v2的权重初始化。2-D位置嵌入使用随机值初始化。
训练超参数
模型在8块NVIDIA A100 SXM4 GPU上训练了100,000步,批次大小为256,最大序列长度为512。优化器使用Adam,学习率为5e-5,β1=0.9,β2=0.999,学习率预热1,000步,之后线性衰减。此外,训练过程中使用了fp16混合精度。训练耗时约5.3小时。
评估
我们的微调模型在SHINRA 2022共享任务的排行榜上获得了55.1451的宏F1分数。详细排行榜信息请查看https://2022.shinra-project.info/#leaderboard。
引用
BibTeX:
@inproceedings{nishiwaki2023layoutlm-wiki-ja,
title = {日本語情報抽出タスクのための{L}ayout{LM}モデルの評価},
author = {西脇一尊 and 大沼俊輔 and 門脇一真},
booktitle = {言語処理学会第29回年次大会(NLP2023)予稿集},
year = {2023},
pages = {522--527}
}