bert-large-japanese-char开源模型 - 免费助力日语自然语言处理任务

首页

Bert Large Japanese Char

由 tohoku-nlp 开发

基于日语维基百科预训练的BERT模型，采用字符级分词与全词掩码策略，适用于日语自然语言处理任务

大型语言模型日语#日语全词掩码BERT #字符级日语理解 #维基百科预训练

下载量 24

发布时间 : 3/2/2022

模型简介

该模型是专门针对日语文本优化的BERT变体，通过结合词级和字符级分词技术，在掩码语言建模任务中表现优异

模型特点

混合分词策略

先使用MeCab+Unidic进行词级分词，再拆分为字符级表示，兼顾词语信息和细粒度处理

全词掩码训练

同一词语的所有子词token会同时被掩码，提升模型对完整词语的理解能力

大规模预训练

基于4.0GB日语维基百科语料（3000万句子）训练100万步

模型能力

日语文本理解

掩码语言预测

上下文表征学习

使用案例

自然语言处理

文本填空

预测文本中被掩码的词语，如示例'在东北大学从事[MASK]的研究'

下游任务微调

可用于文本分类、命名实体识别等NLP任务的基准模型

🚀 BERT large 日语模型（基于全词掩码的字符级分词，jawiki-20200831）

这是一个基于日语文本预训练的 BERT 模型。该模型能够有效处理日语文本，为日语相关的自然语言处理任务提供强大支持。

🚀 快速开始

此模型可用于多种日语自然语言处理任务，如文本分类、命名实体识别等。你可以参考 cl-tohoku/bert-japanese 中的预训练代码进行使用。

✨ 主要特性

采用基于 Unidic 2.1.2 字典（可在 unidic-lite 包中获取）的词级分词，随后进行字符级分词处理输入文本。
在掩码语言模型（MLM）目标中启用全词掩码进行训练，提升模型性能。

📦 安装指南

文档未提及具体安装步骤，可参考 cl-tohoku/bert-japanese 中的代码和说明进行安装。

📚 详细文档

模型架构

模型架构与原始的 BERT large 模型相同，包含 24 层、1024 维的隐藏状态和 16 个注意力头。

训练数据

模型在日语版维基百科上进行训练。训练语料库由 2020 年 8 月 31 日的维基百科 Cirrussearch 转储文件生成。生成的语料库文件总计 4.0GB，包含约 3000 万个句子。使用 MeCab 形态分析器和 mecab-ipadic-NEologd 字典将文本分割成句子。

分词处理

文本首先使用 MeCab 和 Unidic 2.1.2 字典进行分词，然后拆分为字符。词汇表大小为 6144。使用 fugashi 和 unidic-lite 包进行分词。

训练过程

模型使用与原始 BERT 相同的配置进行训练，每个实例 512 个标记，每个批次 256 个实例，共进行 100 万步训练。在 MLM（掩码语言模型）目标的训练中，引入了全词掩码，即对应单个单词（由 MeCab 分词）的所有子词标记会同时被掩码。每个模型的训练使用了 TensorFlow Research Cloud 计划提供的 v3 - 8 实例的 Cloud TPUs，训练大约需要 5 天完成。