B

Bert Large Japanese Char

由 tohoku-nlp 开发
基于日语维基百科预训练的BERT模型,采用字符级分词与全词掩码策略,适用于日语自然语言处理任务
下载量 24
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

该模型是专门针对日语文本优化的BERT变体,通过结合词级和字符级分词技术,在掩码语言建模任务中表现优异

模型特点

混合分词策略
先使用MeCab+Unidic进行词级分词,再拆分为字符级表示,兼顾词语信息和细粒度处理
全词掩码训练
同一词语的所有子词token会同时被掩码,提升模型对完整词语的理解能力
大规模预训练
基于4.0GB日语维基百科语料(3000万句子)训练100万步

模型能力

日语文本理解
掩码语言预测
上下文表征学习

使用案例

自然语言处理
文本填空
预测文本中被掩码的词语,如示例'在东北大学从事[MASK]的研究'
下游任务微调
可用于文本分类、命名实体识别等NLP任务的基准模型