B

Bert Base Japanese Whole Word Masking

由 tohoku-nlp 开发
基于日语文本预训练的BERT模型,采用IPA词典分词和全词掩码技术
下载量 113.33k
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

这是一个基于日语维基百科语料预训练的BERT模型,主要用于日语自然语言处理任务。模型采用IPA词典进行词语级分词,并支持全词掩码训练机制。

模型特点

IPA词典分词
使用MeCab分词器配合IPA词典进行词语级切分,更适合日语语言特点
全词掩码技术
训练时对完整词语的所有子词token同时进行掩码,提升语言建模效果
大规模预训练
基于2.6GB日语维基百科语料(约1700万句)训练100万步

模型能力

日语文本理解
日语语言建模
日语文本特征提取

使用案例

自然语言处理
日语文本分类
可用于新闻分类、情感分析等任务
日语问答系统
作为基础模型构建日语问答应用