bert-base-japanese-v2开源日语BERT模型 - 基于维基百科训练助力日语处理

首页

Bert Base Japanese V2

由 tohoku-nlp 开发

基于日语维基百科预训练的BERT模型，采用Unidic词典进行词汇级分词和整词掩码训练

大型语言模型日语#日语整词掩码BERT #Unidic分词优化 #维基百科预训练

下载量 12.59k

发布时间 : 3/2/2022

模型简介

这是一个针对日语文本优化的BERT基础模型，主要用于自然语言处理任务，如文本分类、命名实体识别等。

模型特点

整词掩码训练

采用整词掩码策略，同一词汇的所有子词token会同时被掩码，提高模型理解能力

Unidic词典分词

使用Unidic 2.1.2词典进行词汇级分词，再结合WordPiece子词切分处理输入文本

大规模预训练数据

基于日语维基百科2020年8月31日转储文件，包含约3000万语句

模型能力

日语文本理解

掩码语言建模

文本特征提取

使用案例

自然语言处理

文本分类

对日语文本进行分类任务

命名实体识别

识别日语文本中的人名、地名等实体

🚀 BERT基础日语模型 (unidic-lite全词掩码，jawiki-20200831)

这是一个基于日语文本预训练的 BERT 模型。该模型使用基于 Unidic 2.1.2 字典（可在 unidic-lite 包中获取）的词级分词处理输入文本，随后进行 WordPiece 子词分词。此外，该模型在进行掩码语言模型（MLM）训练时启用了全词掩码。

预训练代码可在 cl-tohoku/bert-japanese 找到。

✨ 主要特性

采用基于 Unidic 2.1.2 字典的词级分词和 WordPiece 子词分词处理输入文本。
在掩码语言模型（MLM）训练中启用全词掩码。
模型架构与原始 BERT 基础模型相同。

📦 安装指南

文档未提及安装步骤，故跳过此章节。

💻 使用示例

文档未提供代码示例，故跳过此章节。

📚 详细文档

模型架构

模型架构与原始 BERT 基础模型相同，包含 12 层、768 维隐藏状态和 12 个注意力头。

训练数据

模型在日语版维基百科上进行训练。训练语料库由 2020 年 8 月 31 日的维基百科 Cirrussearch 转储文件生成。生成的语料库文件总计 4.0GB，包含约 3000 万个句子。使用带有 mecab-ipadic-NEologd 字典的 MeCab 形态分析器将文本分割成句子。

分词处理

文本首先使用 Unidic 2.1.2 字典通过 MeCab 进行分词，然后使用 WordPiece 算法分割成子词。词汇表大小为 32768。分词使用了 fugashi 和 unidic-lite 包。

训练过程

模型的训练配置与原始 BERT 相同，每个实例 512 个词元，每个批次 256 个实例，共进行 100 万步训练。在掩码语言模型（MLM）训练中，引入了全词掩码，即一次性掩码与单个单词（由 MeCab 分词）对应的所有子词词元。每个模型的训练使用了由 TensorFlow Research Cloud 计划提供的 v3 - 8 实例的 Cloud TPU，训练耗时约 5 天。