roberta-large-japanese-with-auto-jumanpp开源日语模型 - 支持自动分词，处理日语文本

首页

Roberta Large Japanese With Auto Jumanpp

由 nlp-waseda 开发

基于日语维基百科和CC-100日语部分预训练的日本RoBERTa大型模型，支持自动Juman++分词

大型语言模型

Transformers

日语#日语掩码语言建模 #Juman++自动分词 #大规模预训练

下载量 139

发布时间 : 10/15/2022

模型简介

这是一个大型日语RoBERTa模型，专门针对日语自然语言处理任务进行预训练，支持掩码语言建模和下游任务微调。

模型特点

自动Juman++分词

支持对Juman++的自动分词，简化预处理流程

大规模预训练

基于日语维基百科和CC-100日语部分进行预训练，覆盖广泛日语语料

高性能分词

结合JumanDIC和sentencepiece，提供32000个标记的丰富词汇表

模型能力

日语文本理解

掩码语言建模

下游任务微调

使用案例

自然语言处理

文本补全

预测句子中被掩码标记[MASK]的词语

文本分类

通过微调可用于情感分析等分类任务

🚀 nlp-waseda/roberta-large-japanese-with-auto-jumanpp

这是一个基于日本维基百科和CC - 100日语部分预训练的日语RoBERTa大型模型，可用于掩码语言建模任务，还能在下游任务中进行微调。

🚀 快速开始

你可以按照以下方式使用该模型进行掩码语言建模：

from transformers import AutoTokenizer, AutoModelForMaskedLM
tokenizer = AutoTokenizer.from_pretrained("nlp-waseda/roberta-large-japanese-with-auto-jumanpp")
model = AutoModelForMaskedLM.from_pretrained("nlp-waseda/roberta-large-japanese-with-auto-jumanpp")

sentence = '早稲田大学で自然言語処理を[MASK]する。'
encoding = tokenizer(sentence, return_tensors='pt')
...

你还可以在下游任务中对该模型进行微调。

✨ 主要特性

预训练数据丰富：基于日本维基百科和CC - 100的日语部分进行预训练。
支持自动分词：BertJapaneseTokenizer 现在支持 Juman++ 的自动分词。

📚 详细文档

分词

BertJapaneseTokenizer 现在支持 Juman++ 的自动分词。不过，如果你的数据集很大，由于 BertJapaneseTokenizer 仍然不支持快速分词，可能会花费很长时间。你也可以自己进行Juman++分词，然后使用旧模型 nlp-waseda/roberta-large-japanese。

预训练使用了Juman++ 2.0.0 - rc3。每个单词通过 sentencepiece 被分词为标记。