line-distilbert-base-japanese开源模型 - 基于海量日语网页预训练，精准处理日语任务

首页

Line Distilbert Base Japanese

由 line-corporation 开发

基于131GB日语网页文本预训练的DistilBERT模型，由LINE株式会社开发

大型语言模型

Transformers

日语开源协议:Apache-2.0 #日语文本理解 #轻量级BERT #JGLUE基准

下载量 12.92k

发布时间 : 3/9/2023

模型简介

这是一个轻量级的日语BERT模型，适用于各种自然语言处理任务，如文本分类、问答和语义理解。

模型特点

轻量高效

相比完整BERT模型，参数减少40%但保持90%以上的性能

专业日语处理

使用MeCab结合Unidic词典进行专业日语分词处理

广泛预训练

基于131GB日语网页文本进行预训练

模型能力

日语文本理解

文本分类

问答系统

语义相似度计算

掩码语言建模

使用案例

企业应用

企业内部文档处理

用于处理和分析企业内部日语文档

研究开发

自然语言处理研究

作为基础模型用于日语NLP相关研究

🚀 LINE DistilBERT 日语模型

LINE DistilBERT 日语模型是在 131GB 日语网络文本上预训练的 DistilBERT 模型。其教师模型是 LINE 内部构建的 BERT-base 模型，由 LINE 株式会社训练。该模型可用于日语相关的自然语言处理任务，为日语文本处理提供了高效且强大的解决方案。

🚀 快速开始

你可以参考以下代码示例来使用该模型：

from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("line-corporation/line-distilbert-base-japanese", trust_remote_code=True)
model = AutoModel.from_pretrained("line-corporation/line-distilbert-base-japanese")

sentence = "LINE株式会社で[MASK]の研究・開発をしている。"
print(model(**tokenizer(sentence, return_tensors="pt")))

🔧 依赖要求

运行上述代码需要安装以下依赖：

fugashi 
sentencepiece
unidic-lite

✨ 主要特性

预训练数据丰富：基于 131GB 日语网络文本进行预训练，能更好地适应日语的语言特点和表达方式。
模型架构合理：采用 DistilBERT 基础模型架构，具有 6 层、768 维的隐藏状态、12 个注意力头和 6600 万个参数，在性能和效率之间取得了良好的平衡。

📦 安装指南

安装依赖库，使用以下命令：

pip install fugashi sentencepiece unidic-lite

💻 使用示例

基础用法

from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("line-corporation/line-distilbert-base-japanese", trust_remote_code=True)
model = AutoModel.from_pretrained("line-corporation/line-distilbert-base-japanese")

sentence = "LINE株式会社で[MASK]の研究・開発をしている。"
print(model(**tokenizer(sentence, return_tensors="pt")))

📚 详细文档

日语详细文档请参考：https://github.com/line/LINE-DistilBERT-Japanese/blob/main/README_ja.md

🔧 技术细节

模型架构

模型架构为 DistilBERT 基础模型，包含 6 层、768 维的隐藏状态、12 个注意力头，共有 6600 万个参数。

分词方法

文本首先使用带有 Unidic 词典的 MeCab 进行分词，然后通过 SentencePiece 算法将其拆分为子词，词汇量大小为 32768。

评估结果

通过 JGLUE 进行的评估结果如下：

模型名称	参数数量	Marc_ja（准确率）	JNLI（准确率）	JSTS（皮尔逊/斯皮尔曼系数）	JSQuAD（EM/F1）	JCommonSenseQA（准确率）
LINE-DistilBERT	68M	95.6	88.9	89.2/85.1	87.3/93.3	76.1
Laboro-DistilBERT	68M	94.7	82.0	87.4/82.7	70.2/87.3	73.2
BandaiNamco-DistilBERT	68M	94.6	81.6	86.8/82.1	80.0/88.0	66.5

📄 许可证

预训练模型根据 Apache 许可证 2.0 版进行分发。

引用方式

如果你使用了该模型，请引用以下 GitHub 仓库：

@article{LINE DistilBERT Japanese,
  title = {LINE DistilBERT Japanese},
  author = {"Koga, Kobayashi and Li, Shengzhe and Nakamachi, Akifumi and Sato, Toshinori"},
  year = {2023},
  howpublished = {\url{http://github.com/line/LINE-DistilBERT-Japanese}}
}