deberta-v3-japanese-large开源模型 - 专为日语优化，无需形态分析器

首页

Deberta V3 Japanese Large

由 globis-university 开发

基于日语资源训练的DeBERTa V3大型模型，专为日语优化，无需形态分析器且尊重词语边界。

大型语言模型

Transformers

日语#日语优化 #无需形态分析 #词语边界感知

下载量 519.17k

发布时间 : 9/21/2023

模型简介

这是一个基于日语资源训练的DeBERTa V3模型，具有专为日语优化的特点，在推理时无需使用形态分析器，并且能够一定程度尊重词语边界。

模型特点

日语优化

专为日语设计，无需使用形态分析器即可进行推理。

词语边界尊重

token不会跨越词语边界，避免生成跨词token。

精简词汇表

相比原始DeBERTa V3的大规模词汇表，本模型采用更精简的词汇规模。

兼容Hugging Face生态

分词器完全兼容Hugging Face生态系统。

模型能力

日语文本理解

Token分类

自然语言处理

使用案例

自然语言处理

日语文本分析

用于日语文本的深度分析和理解。

日语Token分类

对日语文本进行Token级别的分类任务。

🚀 日语预训练DeBERTa V3模型

这是一个基于日本语资源预训练的 DeBERTa V3 模型，专门针对日语进行了优化，在推理时无需使用形态素解析器，并且在一定程度上尊重单词边界。

🚀 快速开始

from transformers import AutoTokenizer, AutoModelForTokenClassification

model_name = 'globis-university/deberta-v3-japanese-large'
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForTokenClassification.from_pretrained(model_name)

✨ 主要特性

基于知名的 DeBERTa V3 模型构建。
专为日语设计，更贴合日语语言特性。
推理时无需使用形态素解析器，简化处理流程。
一定程度上尊重单词边界，不会产生跨多个单词的标记（如 の都合上 或 の判定負けを喫し）。

📚 详细文档

分词器

分词器采用工藤氏提出的方法进行训练，设计时考虑了以下要点：

推理时无需形态素解析器。
标记不跨越单词边界（词典：unidic-cwj-202302）。
易于与 Hugging Face 库集成使用。
采用较小的词汇量。

尽管原始的 DeBERTa V3 以大词汇量为特点，但这可能导致嵌入层的参数数量显著增加（对于 microsoft/deberta-v3-base 模型，嵌入层占总数的 54%）。为解决此问题，本模型采用了较小的词汇量。

需要注意的是，在 xsmall、base 和 large 这三个模型中，前两个使用 unigram 算法进行训练，而只有 large 模型使用 BPE 算法进行训练。原因在于，large 模型为了增加词汇量而单独进行训练时，unigram 算法训练未能成功。为优先完成模型，因此切换到了 BPE 算法。

数据

数据集名称	备注	文件大小（含元数据）	系数
Wikipedia	2023/07；WikiExtractor	3.5GB	x2
Wikipedia	2023/07；cl-tohoku's method	4.8GB	x2
WikiBooks	2023/07；cl-tohoku's method	43MB	x2
Aozora Bunko	2023/07；globis-university/aozorabunko-clean	496MB	x4
CC-100	ja	90GB	x1
mC4	ja；通过 DSIR 提取 10%，重点类似 Wikipedia	91GB	x1
OSCAR 2023	ja；通过 DSIR 提取 10%，重点类似 Wikipedia	26GB	x1

训练参数

设备数量：8
批次大小：8 x 8
学习率：6.4e-5
最大序列长度：512
优化器：AdamW
学习率调度器：带热身的线性调度
训练步数：2,000,000
热身步数：100,000
精度：混合精度（fp16）
词汇量：48,000

评估

模型	参数数量	JSTS	JNLI	JSQuAD	JCQA
≤ small
izumi-lab/deberta-v2-small-japanese	17.8M	0.890/0.846	0.880	-	0.737
globis-university/deberta-v3-japanese-xsmall	33.7M	0.916/0.880	0.913	0.869/0.938	0.821
base
cl-tohoku/bert-base-japanese-v3	111M	0.919/0.881	0.907	0.880/0.946	0.848
nlp-waseda/roberta-base-japanese	111M	0.913/0.873	0.895	0.864/0.927	0.840
izumi-lab/deberta-v2-base-japanese	110M	0.919/0.882	0.912	-	0.859
ku-nlp/deberta-v2-base-japanese	112M	0.922/0.886	0.922	0.899/0.951	-
ku-nlp/deberta-v3-base-japanese	160M	0.927/0.891	0.927	0.896/-	-
globis-university/deberta-v3-japanese-base	110M	0.925/0.895	0.921	0.890/0.950	0.886
large
cl-tohoku/bert-large-japanese-v2	337M	0.926/0.893	0.929	0.893/0.956	0.893
nlp-waseda/roberta-large-japanese	337M	0.930/0.896	0.924	0.884/0.940	0.907
nlp-waseda/roberta-large-japanese-seq512	337M	0.926/0.892	0.926	0.918/0.963	0.891
ku-nlp/deberta-v2-large-japanese	339M	0.925/0.892	0.924	0.912/0.959	-
globis-university/deberta-v3-japanese-large	352M	0.928/0.896	0.924	0.896/0.956	0.900