bert-base-japanese-whole-word-masking开源模型 - 助力日语文本处理，免费部署即用！

首页

Bert Base Japanese Whole Word Masking

由 tohoku-nlp 开发

基于日语文本预训练的BERT模型，采用IPA词典分词和全词掩码技术

大型语言模型日语#日语全词掩码 #IPA词典分词 #维基百科预训练

下载量 113.33k

发布时间 : 3/2/2022

模型简介

这是一个基于日语维基百科语料预训练的BERT模型，主要用于日语自然语言处理任务。模型采用IPA词典进行词语级分词，并支持全词掩码训练机制。

模型特点

IPA词典分词

使用MeCab分词器配合IPA词典进行词语级切分，更适合日语语言特点

全词掩码技术

训练时对完整词语的所有子词token同时进行掩码，提升语言建模效果

大规模预训练

基于2.6GB日语维基百科语料（约1700万句）训练100万步

模型能力

日语文本理解

日语语言建模

日语文本特征提取

使用案例

自然语言处理

日语文本分类

可用于新闻分类、情感分析等任务

日语问答系统

作为基础模型构建日语问答应用

🚀 BERT基础日语模型（IPA词典，启用全词掩码）

本项目是一个基于日语文本预训练的 BERT 模型。该模型版本采用基于 IPA 词典的词级分词处理输入文本，随后进行 WordPiece 子词分词。此外，该模型在训练掩码语言模型（MLM）目标时启用了全词掩码。

预训练代码可在 cl-tohoku/bert-japanese 找到。

✨ 主要特性

模型架构与原始 BERT 基础模型相同，包含 12 层、768 维隐藏状态和 12 个注意力头。
采用基于 IPA 词典的词级分词和 WordPiece 子词分词处理输入文本。
在训练掩码语言模型（MLM）目标时启用全词掩码。

📦 安装指南

文档未提及安装步骤，故跳过此章节。

💻 使用示例

文档未提供代码示例，故跳过此章节。

📚 详细文档

模型架构

模型架构与原始 BERT 基础模型相同，具有 12 层、768 维隐藏状态和 12 个注意力头。

训练数据

该模型基于 2019 年 9 月 1 日的日语维基百科进行训练。为生成训练语料库，使用 WikiExtractor 从维基百科文章的转储文件中提取纯文本。用于训练的文本文件大小为 2.6GB，约包含 1700 万个句子。

分词

文本首先由 MeCab 形态分析器结合 IPA 词典进行分词，然后通过 WordPiece 算法拆分为子词。词汇表大小为 32000。

训练

模型的训练配置与原始 BERT 相同，每个实例 512 个标记，每个批次 256 个实例，训练步数为 100 万步。

在训练掩码语言模型（MLM）目标时，引入了 全词掩码 机制，即一次性对对应于单个单词（由 MeCab 分词）的所有子词标记进行掩码。

许可证

预训练模型根据知识共享署名 - 相同方式共享 3.0 许可条款分发。

致谢

在训练模型时，使用了 TensorFlow 研究云计划提供的 Cloud TPU。

属性	详情
模型类型	BERT基础日语模型（IPA词典，启用全词掩码）
训练数据	2019年9月1日的日语维基百科，文本文件大小为2.6GB，约包含1700万个句子

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

uer

2,694

智启未来，您的人工智能解决方案智库

简体中文