deberta-v2-base-japanese开源日语模型 - 支持语言建模与下游任务微调

首页

Deberta V2 Base Japanese

由 ku-nlp 开发

基于日语维基百科、CC-100和OSCAR语料预训练的日语DeBERTa V2基础模型，适用于掩码语言建模和下游任务微调。

大型语言模型

Transformers

日语#日语掩码填充 #Juman++分词 #维基百科预训练

下载量 38.93k

发布时间 : 1/5/2023

模型简介

这是一个基于大规模日语语料预训练的DeBERTa V2模型，主要用于日语文本的掩码语言建模任务，也可通过微调应用于各种自然语言理解任务。

模型特点

高质量日语预训练

使用日语维基百科、CC-100和OSCAR等高质量日语语料进行预训练，覆盖广泛的日语语言特征。

专业分词处理

输入文本需通过Juman++进行专业分词处理，确保模型对日语文本的准确理解。

多任务适应能力

除掩码语言建模外，还可通过微调应用于多种自然语言理解任务，如文本分类、问答等。

模型能力

日语文本理解

掩码语言建模

自然语言处理任务微调

使用案例

自然语言理解

文本分类

可用于日语文本分类任务，如情感分析、主题分类等。

在MARC-ja任务上准确率达0.970

语义相似度计算

可用于计算日语文本对之间的语义相似度。

在JSTS任务上皮尔逊相关系数达0.922

问答系统

可用于构建日语问答系统。

在JSQuAD任务上F1分数达0.951

🚀 日语DeBERTa V2基础模型卡片

本模型是基于日语维基百科、CC - 100的日语部分以及OSCAR的日语部分进行预训练的日语DeBERTa V2基础模型，可用于掩码语言建模等自然语言处理任务。

🚀 快速开始

你可以按如下方式使用该模型进行掩码语言建模：

from transformers import AutoTokenizer, AutoModelForMaskedLM
tokenizer = AutoTokenizer.from_pretrained('ku-nlp/deberta-v2-base-japanese')
model = AutoModelForMaskedLM.from_pretrained('ku-nlp/deberta-v2-base-japanese')

sentence = '京都 大学 で 自然 言語 処理 を [MASK] する 。'  # input should be segmented into words by Juman++ in advance
encoding = tokenizer(sentence, return_tensors='pt')
...

你还可以在下游任务中对该模型进行微调。

✨ 主要特性

这是一个在日语维基百科、CC - 100的日语部分和OSCAR的日语部分上进行预训练的日语DeBERTa V2基础模型。

📦 安装指南

文档未提及具体安装步骤，故跳过此章节。

💻 使用示例

基础用法

from transformers import AutoTokenizer, AutoModelForMaskedLM
tokenizer = AutoTokenizer.from_pretrained('ku-nlp/deberta-v2-base-japanese')
model = AutoModelForMaskedLM.from_pretrained('ku-nlp/deberta-v2-base-japanese')

sentence = '京都 大学 で 自然 言語 処理 を [MASK] する 。'  # input should be segmented into words by Juman++ in advance
encoding = tokenizer(sentence, return_tensors='pt')
...

📚 详细文档

分词

输入文本应预先使用 Juman++ 进行分词。预训练使用的是 Juman++ 2.0.0 - rc3。每个单词会通过 sentencepiece 被分词为子词。

训练数据

预训练使用了以下语料库：

日语维基百科（截至2022年10月20日，3.2GB，2700万句子，130万文档）
CC - 100的日语部分（85GB，6.19亿句子，6600万文档）
OSCAR的日语部分（54GB，3.26亿句子，2500万文档）

请注意，我们过滤掉了OSCAR中标注有“header”、“footer”或“noisy”标签的文档。此外，日语维基百科被重复了10次，以使语料库的总大小与CC - 100和OSCAR相当。因此，训练数据的总大小为171GB。

训练过程

首先，我们使用 Juman++ 将语料库中的文本分词为单词。然后，我们使用包含单词（JumanDIC）和由 sentencepiece 的unigram语言模型诱导的子词的32000个标记构建了一个sentencepiece模型。

我们使用sentencepiece模型将分词后的语料库分词为子词，并使用 transformers 库训练日语DeBERTa模型。训练使用8个NVIDIA A100 - SXM4 - 40GB GPU，耗时三周。

预训练期间使用了以下超参数：

属性	详情
学习率	2e - 4
每个设备的训练批次大小	44
分布式类型	多GPU
设备数量	8
梯度累积步数	6
总训练批次大小	2112
最大序列长度	512
优化器	Adam，beta=(0.9, 0.999)，epsilon = 1e - 06
学习率调度器类型	带热身的线性调度
训练步数	500000
热身步数	10000

训练好的模型在掩码语言建模任务上的准确率为0.779。评估集由每个训练语料库中随机抽取的5000个文档组成。

NLU任务微调

我们对以下模型进行了微调，并在JGLUE的开发集上进行了评估。我们根据 JGLUE论文为每个模型和任务调整了学习率和训练轮数。

模型	MARC - ja/准确率	JSTS/皮尔逊相关系数	JSTS/斯皮尔曼相关系数	JNLI/准确率	JSQuAD/精确匹配率	JSQuAD/F1值	JComQA/准确率
早稻田RoBERTa基础模型	0.965	0.913	0.876	0.905	0.853	0.916	0.853
早稻田RoBERTa大模型（序列长度512）	0.969	0.925	0.890	0.928	0.910	0.955	0.900
LUKE日语基础模型*	0.965	0.916	0.877	0.912	-	-	0.842
LUKE日语大模型*	0.965	0.932	0.902	0.927	-	-	0.893
DeBERTaV2基础模型	0.970	0.922	0.886	0.922	0.899	0.951	0.873
DeBERTaV2大模型	0.968	0.925	0.892	0.924	0.912	0.959	0.890