B

Bert Base Japanese Char

由 tohoku-nlp 开发
基于日语文本预训练的BERT模型,采用字符级分词处理,适用于日语自然语言处理任务。
下载量 116.10k
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

这是一个基于日语维基百科文本预训练的BERT模型,采用IPA词典进行词语级分词后再进行字符级分词处理,适用于各种日语自然语言理解任务。

模型特点

字符级分词
采用先词语级分词再字符级分词的双重处理方式,更适合日语语言特性
大规模预训练
基于2.6GB日语维基百科文本训练,包含约1700万句
与原始BERT兼容
模型架构和训练参数与原始BERT保持一致,便于迁移学习

模型能力

日语文本理解
日语文本分类
日语问答系统
日语命名实体识别

使用案例

自然语言处理
日语文本分类
对日语新闻、评论等进行情感分析或主题分类
日语问答系统
构建基于日语的智能问答应用