roberta-base-japanese开源日语预训练模型 - 依托多源数据助力日语应用

首页

Roberta Base Japanese

由 nlp-waseda 开发

基于日语RoBERTa的预训练模型，训练数据包括日语维基百科和CC-100的日语部分。

大型语言模型

Transformers

日语#日语预训练 #Juman++分词 #掩码语言建模

下载量 456

发布时间 : 3/2/2022

模型简介

这是一个基于RoBERTa架构的日语预训练模型，主要用于日语文本的掩码语言建模任务。模型经过大规模日语语料训练，适用于各种日语自然语言处理任务。

模型特点

日语专用预训练

专门针对日语进行预训练，使用日语维基百科和CC-100日语部分作为训练数据

Juman++分词支持

输入文本需通过Juman++进行分词处理，确保对日语文本的最佳处理效果

大规模词汇表

包含32000个标记，结合JumanDIC词汇和sentencepiece生成的子词

高效训练

使用8块NVIDIA A100 GPU训练一周完成，采用多种优化技术

模型能力

日语文本理解

掩码语言预测

下游任务微调

使用案例

自然语言处理

文本补全

预测句子中被掩码标记[MASK]替换的词语

能够准确预测日语文本中的缺失词语

文本分类

通过微调可用于情感分析、主题分类等任务

命名实体识别

通过微调可识别日语文本中的人名、地名等实体

🚀 nlp-waseda/roberta-base-japanese

这是一个基于日本维基百科和CC - 100日语部分预训练的日语RoBERTa基础模型，可用于掩码语言建模任务，也能在下游任务中进行微调。

🚀 快速开始

你可以按如下方式使用这个模型进行掩码语言建模：

from transformers import AutoTokenizer, AutoModelForMaskedLM
tokenizer = AutoTokenizer.from_pretrained("nlp-waseda/roberta-base-japanese")
model = AutoModelForMaskedLM.from_pretrained("nlp-waseda/roberta-base-japanese")

sentence = '早稲田 大学 で 自然 言語 処理 を [MASK] する 。' # input should be segmented into words by Juman++ in advance
encoding = tokenizer(sentence, return_tensors='pt')
...

你还可以在下游任务中对该模型进行微调。

✨ 主要特性

分词处理

输入文本需要提前使用 Juman++ 进行分词。预训练使用的是Juman++ 2.0.0 - rc3版本。每个单词会通过 sentencepiece 进一步分词成标记。

BertJapaneseTokenizer 现在支持自动的 JumanppTokenizer 和 SentencepieceTokenizer。你可以使用这个模型而无需进行任何数据预处理。

词汇表

词汇表包含32000个标记，其中包括单词（JumanDIC）和由 sentencepiece 的一元语言模型生成的子词。

训练过程

该模型在日本维基百科（截至2021年9月20日）和CC - 100的日语部分上进行训练。使用8块NVIDIA A100 GPU训练了一周。

预训练期间使用了以下超参数：

学习率：1e - 4
每个设备的训练批次大小：256
分布式类型：多GPU
设备数量：8
梯度累积步数：2
总训练批次大小：4096
最大序列长度：128
优化器：Adam（β1 = 0.9，β2 = 0.999，ε = 1e - 08）
学习率调度器类型：线性
训练步数：700000
热身步数：10000
混合精度训练：Native AMP

在JGLUE上的性能

请参考JGLUE的基线分数。

📄 许可证

本项目采用CC - BY - SA 4.0许可证。

📦 数据集

维基百科
CC100

📦 掩码标记

[MASK]

📦 示例文本

{
    "text": "早稲田 大学 で 自然 言語 処理 を [MASK] する 。"
}

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

uer

2,694

智启未来，您的人工智能解决方案智库

简体中文