bert-base-japanese开源模型 - 免费助力日语自然语言处理各类任务

首页

Bert Base Japanese

由 tohoku-nlp 开发

基于日语维基百科文本预训练的BERT模型，使用IPA词典进行词语级分词处理，适用于日语自然语言处理任务。

大型语言模型日语#日语文本理解 #IPA词典分词 #维基百科预训练

下载量 153.44k

发布时间 : 3/2/2022

模型简介

这是一个基于日语文本预训练的BERT模型，采用IPA词典进行词语级分词处理，随后进行WordPiece子词切分，适用于各种日语自然语言理解任务。

模型特点

日语专用分词处理

使用MeCab形态分析器配合IPA词典进行日语专用分词，确保对日语文本的高效处理

大规模预训练

基于2.6GB日文维基百科语料训练，包含约1700万语句

标准BERT架构

采用与原始BERT相同的架构和训练参数，确保兼容性和可靠性

模型能力

日语文本理解

日语文本分类

日语问答系统

日语命名实体识别

日语语义相似度计算

使用案例

文本分析

日语情感分析

分析日语文本的情感倾向

日语文本分类

对日语文档进行分类

信息提取

日语命名实体识别

从日语文本中提取人名、地名等实体

🚀 BERT基础日语模型（IPA词典版）

这是一个基于日语文本进行预训练的 BERT 模型。该模型使用基于IPA词典的词级分词处理输入文本，随后进行WordPiece子词分词。预训练代码可在 cl-tohoku/bert-japanese 找到。

🚀 快速开始

此模型为基于日语文本预训练的BERT模型，可用于多种自然语言处理任务，如文本分类、命名实体识别等。

✨ 主要特性

采用基于IPA词典的词级分词结合WordPiece子词分词处理输入文本。
模型架构与原始BERT基础模型相同，具有12层、768维隐藏状态和12个注意力头。

📦 安装指南

文档未提及安装步骤，暂不展示。

💻 使用示例

文档未提供代码示例，暂不展示。

📚 详细文档

模型架构

模型架构与原始BERT基础模型相同，有12层、768维隐藏状态和12个注意力头。

训练数据

该模型基于2019年9月1日的日语维基百科进行训练。使用 WikiExtractor 从维基百科文章的转储文件中提取纯文本以生成训练语料库。用于训练的文本文件大小为2.6GB，约包含1700万个句子。

分词处理

文本首先由 MeCab 形态分析器结合IPA词典进行分词，然后通过WordPiece算法拆分为子词。词汇表大小为32000。

训练设置

模型的训练配置与原始BERT相同，每个实例包含512个标记，每个批次包含256个实例，共进行100万步训练。

信息表格

属性	详情
模型类型	基于日语文本预训练的BERT模型
训练数据	2019年9月1日的日语维基百科，文本文件大小为2.6GB，约包含1700万个句子

🔧 技术细节

该模型在架构上与原始BERT基础模型保持一致，在处理日语文本时，先利用MeCab结合IPA词典进行词级别的分词，这种方式能更准确地理解日语词汇的语义和语法结构。之后使用WordPiece算法将词进一步拆分为子词，有助于处理未登录词和提高模型的泛化能力。在训练方面，采用了与原始BERT相同的配置，保证了模型训练的稳定性和有效性。