R

Roberta Large Japanese With Auto Jumanpp

由 nlp-waseda 开发
基于日语维基百科和CC-100日语部分预训练的日本RoBERTa大型模型,支持自动Juman++分词
下载量 139
发布时间 : 10/15/2022
模型介绍
内容详情
替代品

模型简介

这是一个大型日语RoBERTa模型,专门针对日语自然语言处理任务进行预训练,支持掩码语言建模和下游任务微调。

模型特点

自动Juman++分词
支持对Juman++的自动分词,简化预处理流程
大规模预训练
基于日语维基百科和CC-100日语部分进行预训练,覆盖广泛日语语料
高性能分词
结合JumanDIC和sentencepiece,提供32000个标记的丰富词汇表

模型能力

日语文本理解
掩码语言建模
下游任务微调

使用案例

自然语言处理
文本补全
预测句子中被掩码标记[MASK]的词语
文本分类
通过微调可用于情感分析等分类任务