sbert-base-ja开源日语模型 - 免费使用助力句子相似度计算

首页

Sbert Base Ja

由 colorfulscoop 开发

针对日语的Sentence BERT基础模型，基于BERT模型微调，用于句子相似度计算

文本嵌入

PyTorch

日语#日语语义相似度 #句子向量化 #JSNLI微调

下载量 537

发布时间 : 3/2/2022

模型简介

本模型是一个针对日语的Sentence BERT基础模型，主要用于句子相似度计算和特征提取任务。它基于colorfulscoop/bert-base-ja预训练模型，使用日语SNLI数据集进行微调。

模型特点

日语专用优化

基于日语BERT模型和日语SNLI数据集专门优化，适合处理日语文本

高效句子嵌入

能够将句子转换为768维的嵌入向量，便于后续相似度计算

轻量级部署

模型相对轻量，适合在实际应用中部署

模型能力

句子嵌入生成

句子相似度计算

文本特征提取

使用案例

文本匹配

问答系统

用于匹配用户问题与知识库中的相似问题

语义搜索

提升搜索系统对查询语句和文档的语义理解能力

内容推荐

相似内容推荐

基于内容语义相似度推荐相关文章或产品

🚀 日语句子BERT基础模型

本仓库包含一个用于日语的句子BERT基础模型，可用于计算句子相似度等任务，为日语句子处理提供了有效的解决方案。

🚀 快速开始

本模型是基于 SentenceTransformer 构建的日语句子BERT基础模型。要使用该模型，首先需要安装依赖，然后初始化模型并使用 encode 方法将句子转换为向量。

✨ 主要特性

预训练模型：使用在 [Creative Commons Attribution - ShareAlike 3.0](https://creativecommons.org/licenses/by - sa/3.0/) 许可下发布的日语BERT模型 [colorfulscoop/bert - base - ja](https://huggingface.co/colorfulscoop/bert - base - ja) v1.0 作为预训练模型。
训练数据：使用在 [Creative Commons Attribution - ShareAlike 4.0](https://creativecommons.org/licenses/by - sa/4.0/) 许可下发布的 [日语SNLI数据集](https://nlp.ist.i.kyoto - u.ac.jp/index.php?%E6%97%A5%E6%9C%AC%E8%AA%9ESNLI%28JSNLI%29%E3%83%87%E3%83%BC%E3%82%BF%E3%82%BB%E3%83%83%E3%83%88) 进行训练。
模型结构：使用 [sentence - transformers](https://github.com/UKPLab/sentence - transformers) 库中的 SentenceTransformer 模型。

📦 安装指南

首先，安装依赖：

$ pip install sentence-transformers==2.0.0

💻 使用示例

基础用法

>>> from sentence_transformers import SentenceTransformer
>>> model = SentenceTransformer("colorfulscoop/sbert-base-ja")
>>> sentences = ["外をランニングするのが好きです", "海外旅行に行くのが趣味です"]
>>> model.encode(sentences)

📚 详细文档

预训练模型

此模型使用在 [Creative Commons Attribution - ShareAlike 3.0](https://creativecommons.org/licenses/by - sa/3.0/) 许可下发布的日语BERT模型 [colorfulscoop/bert - base - ja](https://huggingface.co/colorfulscoop/bert - base - ja) v1.0 作为预训练模型。

训练数据

使用在 [Creative Commons Attribution - ShareAlike 4.0](https://creativecommons.org/licenses/by - sa/4.0/) 许可下发布的 [日语SNLI数据集](https://nlp.ist.i.kyoto - u.ac.jp/index.php?%E6%97%A5%E6%9C%AC%E8%AA%9ESNLI%28JSNLI%29%E3%83%87%E3%83%BC%E3%82%BF%E3%82%BB%E3%83%83%E3%83%88) 进行训练。原始训练数据集被划分为训练集和验证集，最终准备的数据如下：

数据集类型	样本数量
训练数据	523,005 个样本
验证数据	10,000 个样本
测试数据	3,916 个样本

模型描述

该模型使用 [sentence - transformers](https://github.com/UKPLab/sentence - transformers) 库中的 SentenceTransformer 模型，模型详细信息如下：

>>> from sentence_transformers import SentenceTransformer
>>> SentenceTransformer("colorfulscoop/sbert-base-ja")
SentenceTransformer(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: BertModel
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False})
)

训练过程

此模型使用SNLI的3标签Softmax分类器对 [colorfulscoop/bert - base - ja](https://huggingface.co/colorfulscoop/bert - base - ja) 进行微调。使用AdamW优化器，学习率为2e - 05，在10%的训练数据上进行线性预热。模型以批量大小8训练1个epoch。

注意：在 Sentence BERT 的原始论文中，在SNLI和Multi - Genle NLI上训练的模型批量大小为16。在此模型中，数据集约为原始数据集的一半，因此批量大小设置为原始批量大小16的一半。

训练在配备一块RTX 2080 Ti的Ubuntu 18.04.5 LTS上进行。训练后，测试集准确率达到0.8529。训练代码可在 [GitHub仓库](https://github.com/colorfulscoop/sbert - ja) 中获取。

🔧 技术细节

本模型基于 SentenceTransformer 框架，利用预训练的日语BERT模型进行微调。在训练过程中，采用了Softmax分类器和AdamW优化器，通过对日语SNLI数据集的学习，使得模型能够有效地将日语句子转换为向量表示，从而用于句子相似度计算等任务。

📄 许可证

本仓库中包含的所有模型均在 [Creative Commons Attribution - ShareAlike 4.0](https://creativecommons.org/licenses/by - sa/4.0/) 许可下使用。

免责声明：使用此模型由您自行承担风险。Colorful Scoop对模型的任何输出不做任何保证。Colorful Scoop对因模型输出产生的任何问题、损失或损害不承担责任。

本模型使用了以下预训练模型：

属性	详情
模型名称	bert - base - ja
版权信息	(c) 2021 Colorful Scoop
许可证	[Creative Commons Attribution - ShareAlike 3.0](https://creativecommons.org/licenses/by - sa/3.0/)
免责声明	该模型可能会生成训练数据中的相似文本、不真实的文本或有偏差的文本。使用该模型由您自行承担风险。Colorful Scoop对模型的任何输出不做任何保证。Colorful Scoop对因模型输出产生的任何问题、损失或损害不承担责任。
链接	https://huggingface.co/colorfulscoop/bert - base - ja

本模型使用以下数据进行微调：

属性	详情
数据名称	日语SNLI(JSNLI)数据集
版权信息	[https://nlp.ist.i.kyoto - u.ac.jp/index.php?日本語SNLI(JSNLI)データセット](https://nlp.ist.i.kyoto - u.ac.jp/index.php?%E6%97%A5%E6%9C%AC%E8%AA%9ESNLI%28JSNLI%29%E3%83%87%E3%83%BC%E3%82%BF%E3%82%BB%E3%83%83%E3%83%88)
许可证	[CC BY - SA 4.0](https://creativecommons.org/licenses/by - sa/4.0/)
链接	[https://nlp.ist.i.kyoto - u.ac.jp/index.php?日本語SNLI(JSNLI)データセット](https://nlp.ist.i.kyoto - u.ac.jp/index.php?%E6%97%A5%E6%9C%AC%E8%AA%9ESNLI%28JSNLI%29%E3%83%87%E3%83%BC%E3%82%BF%E3%82%BB%E3%83%83%E3%83%88)