all_datasets_v3_MiniLM-L12开源句子嵌入模型 - 生成高质量语义向量表示

首页

All Datasets V3 MiniLM L12

由 flax-sentence-embeddings 开发

基于MiniLM-L12架构的句子嵌入模型，通过对比学习在超10亿句对数据集上训练，可生成高质量的语义向量表示

文本嵌入

PyTorch

英语#十亿级句对训练 #对比学习优化 #多源数据融合

下载量 887

发布时间 : 3/2/2022

模型简介

该模型是专为句子级语义理解设计的编码器，可将输入文本转换为384维向量表示，适用于信息检索、文本相似度计算等场景

模型特点

大规模对比学习训练

在包含10亿句对的多样化数据集上进行对比学习训练，增强模型语义理解能力

高效轻量架构

基于MiniLM-L12的轻量级Transformer架构，在保持性能的同时降低计算资源需求

多源数据融合

整合来自23个不同领域的数据源，使模型具备广泛的语义覆盖能力

模型能力

文本向量化

语义相似度计算

信息检索增强

文本聚类分析

使用案例

信息检索

搜索引擎结果优化

通过语义匹配提升搜索结果相关性

可识别查询意图，返回更符合用户需求的文档

智能客服

问题相似度匹配

识别用户问题与知识库问题的语义相似度

提高自动问答系统的准确率

🚀 句子相似度模型

本项目旨在使用自监督对比学习目标，在超大型句子级数据集上训练句子嵌入模型。通过该模型，能够将输入的句子转化为向量，捕捉句子的语义信息，可广泛应用于信息检索、聚类或句子相似度任务等领域。

🚀 快速开始

本模型可作为句子编码器使用。给定输入句子，它将输出一个捕获句子语义信息的向量。句子向量可用于信息检索、聚类或句子相似度任务。

✨ 主要特性

大规模数据训练：使用超过10亿个句子对的数据集进行微调，使模型能学习到丰富的语义信息。
高效架构：基于预训练的MiniLM-L12模型进行微调，结合高效的对比学习目标，在保证性能的同时提高训练效率。
多领域适用性：训练数据涵盖了多种不同类型的数据集，包括问答、图像描述、代码搜索等，使模型具有广泛的适用性。

📦 安装指南

使用此模型前，需安装SentenceTransformers库，可通过以下命令进行安装：

pip install sentence-transformers

💻 使用示例

基础用法

以下是如何使用SentenceTransformers库来获取给定文本特征的示例代码：

from sentence_transformers import SentenceTransformer

model = SentenceTransformer('flax-sentence-embeddings/all_datasets_v3_MiniLM-L12')
text = "Replace me by any text you'd like."
text_embbedding = model.encode(text)
# array([-0.01559514,  0.04046123,  0.1317083 ,  0.00085931,  0.04585106,
#        -0.05607086,  0.0138078 ,  0.03569756,  0.01420381,  0.04266302 ...],
#        dtype=float32)

📚 详细文档

训练过程

预训练

我们使用了预训练的MiniLM-L12模型。有关预训练过程的更多详细信息，请参考该模型的卡片。

微调

我们使用对比目标对模型进行微调。具体来说，我们计算批次中每个可能句子对的余弦相似度，然后通过与真实对进行比较来应用交叉熵损失。

超参数

我们在TPU v3 - 8上训练模型。训练共进行540k步，批次大小为1024（每个TPU核心128）。学习率预热步数为500，序列长度限制为128个标记。我们使用AdamW优化器，学习率为2e - 5。完整的训练脚本可在当前仓库中获取。

训练数据

我们使用多个数据集的组合来微调模型。句子对的总数超过10亿。每个数据集的采样概率在data_config.json文件中有详细配置。

数据集	论文	训练元组数量
GOOAQ: Open Question Answering with Diverse Answer Types	论文	3,012,496
Stack Exchange	-	364,001
Flickr 30k	论文	317,695
[COCO 2020](COCO 2020)	论文	828,395
Code Search	-	1,151,414
TriviaqQA	-	73,346
SQuAD2.0	论文	87,599
Natural Questions (NQ)	论文	100,231
Simple Wikipedia	论文	102,225
Quora Question Pairs	-	103,663
Altlex	论文	112,696
Wikihow	论文	128,542
Sentence Compression	论文	180,000
AllNLI (SNLI 和 MultiNLI	论文 SNLI，论文 MultiNLI	277,230
Eli5	论文	325,475
SPECTER	论文	684,100
S2ORC 标题/摘要	论文	41,769,185
S2ORC 引用/引用	论文	52,603,982
S2ORC 引用/摘要	论文	116,288,806
PAQ	论文	64,371,441
WikiAnswers	论文	77,427,422
SearchQA	-	582,261
Yahoo Answers 标题/答案	论文	1,198,260
Yahoo Answers 标题/问题	论文	659,896
Yahoo Answers 问题/答案	论文	681,164
MS MARCO	论文	9,144,553
Reddit conversationnal	论文	726,484,430
总计		1,097,953,922