B

Bert Base Japanese

由 tohoku-nlp 开发
基于日语维基百科文本预训练的BERT模型,使用IPA词典进行词语级分词处理,适用于日语自然语言处理任务。
下载量 153.44k
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

这是一个基于日语文本预训练的BERT模型,采用IPA词典进行词语级分词处理,随后进行WordPiece子词切分,适用于各种日语自然语言理解任务。

模型特点

日语专用分词处理
使用MeCab形态分析器配合IPA词典进行日语专用分词,确保对日语文本的高效处理
大规模预训练
基于2.6GB日文维基百科语料训练,包含约1700万语句
标准BERT架构
采用与原始BERT相同的架构和训练参数,确保兼容性和可靠性

模型能力

日语文本理解
日语文本分类
日语问答系统
日语命名实体识别
日语语义相似度计算

使用案例

文本分析
日语情感分析
分析日语文本的情感倾向
日语文本分类
对日语文档进行分类
信息提取
日语命名实体识别
从日语文本中提取人名、地名等实体