all_datasets_v4_MiniLM-L6开源轻量级模型 - 免费部署助力语义相似度计算与信息检索

首页

All Datasets V4 MiniLM L6

由 flax-sentence-embeddings 开发

基于MiniLM架构的轻量级句子嵌入模型，通过对比学习在10亿句对数据集上微调，适用于语义相似度计算和信息检索任务

文本嵌入

PyTorch

英语#十亿级句对训练 #对比学习优化 #轻量级嵌入

下载量 6,550

发布时间 : 3/2/2022

模型简介

该模型通过自监督对比学习目标训练，能够将输入句子编码为蕴含语义信息的向量表示，主要用于句子相似度计算、信息检索和文本聚类等任务

模型特点

大规模对比学习训练

在超过10亿句对的多样化数据集上进行对比学习微调，增强语义表示能力

轻量级架构

采用6层MiniLM架构，在保持性能的同时减少计算资源需求

多源数据融合

整合30+不同领域数据集(问答、学术论文、社区讨论等)，提升模型泛化能力

模型能力

句子向量化

语义相似度计算

信息检索

文本聚类

语义搜索

使用案例

信息检索

文档相似度匹配

计算用户查询与文档库的语义相似度

可替代传统关键词匹配方法，实现基于语义的检索

问答系统

相似问题匹配

在问答社区中自动关联语义相似的提问

减少重复问题，提升社区运营效率

学术研究

论文推荐

基于论文标题/摘要的语义相似度推荐相关研究

帮助研究者发现跨领域的相关文献

🚀 句子相似度模型

本项目旨在使用自监督对比学习目标，在超大型句子级数据集上训练句子嵌入模型。该模型可输出捕获句子语义信息的向量，用于信息检索、聚类或句子相似度任务。

🚀 快速开始

本模型可作为句子编码器使用。给定输入句子，它会输出一个捕获句子语义信息的向量。这个句子向量可用于信息检索、聚类或句子相似度任务。

✨ 主要特性

基于自监督对比学习目标，在超大型句子级数据集上训练。
以预训练的 MiniLM-L6-H384-uncased 模型为基础进行微调。
可输出捕获句子语义信息的向量，适用于多种自然语言处理任务。

💻 使用示例

基础用法

from sentence_transformers import SentenceTransformer

model = SentenceTransformer('flax-sentence-embeddings/all_datasets_v4_MiniLM-L6')
text = "Replace me by any text you'd like."
text_embbedding = model.encode(text)
# array([-0.01559514,  0.04046123,  0.1317083 ,  0.00085931,  0.04585106,
#        -0.05607086,  0.0138078 ,  0.03569756,  0.01420381,  0.04266302 ...],
#        dtype=float32)

📚 详细文档

模型描述

本项目旨在使用自监督对比学习目标，在超大型句子级数据集上训练句子嵌入模型。我们使用了预训练的 'MiniLM-L6-H384-uncased' 模型，并在 10 亿个句子对上进行了微调。我们采用对比学习目标：给定一对句子中的一个，模型应从一组随机采样的其他句子中预测出在数据集中实际与之配对的句子。

本模型是在 Hugging Face 组织的使用 JAX/Flax 进行自然语言处理和计算机视觉的社区周期间开发的。它是使用 10 亿个训练对训练有史以来最好的句子嵌入模型项目的一部分。我们借助高效的硬件基础设施来运行该项目：7 个 TPU v3 - 8，以及谷歌的 Flax、JAX 和云团队成员在高效深度学习框架方面的支持。

预期用途

我们的模型旨在用作句子编码器。给定输入句子，它会输出一个捕获句子语义信息的向量。该句子向量可用于信息检索、聚类或句子相似度任务。

训练过程

预训练

我们使用预训练的 'MiniLM-L6-H384-uncased' 模型，它是 'microsoft/MiniLM-L12-H384-uncased' 的 6 层版本，只保留了每隔一层的结构。有关预训练过程的更多详细信息，请参考模型卡片。

微调

我们使用对比目标对模型进行微调。具体来说，我们计算批次中每个可能句子对的余弦相似度，然后通过与真实对进行比较来应用交叉熵损失。

超参数

我们在 TPU v3 - 8 上训练模型。使用 1024 的批次大小（每个 TPU 核心 128），训练 540k 步。我们使用 500 的学习率预热。序列长度限制为 128 个标记。我们使用 AdamW 优化器，学习率为 2e - 5。完整的训练脚本可在当前仓库中找到。

训练数据

我们使用多个数据集的组合来微调模型。句子对的总数超过 10 亿。我们根据加权概率对每个数据集进行采样，具体配置在 data_config.json 文件中详细说明。

数据集	论文	训练元组数量
GOOAQ: Open Question Answering with Diverse Answer Types	论文	3,012,496
Stack Exchange	-	364,001
Flickr 30k	论文	317,695
[COCO 2020](COCO 2020)	论文	828,395
Code Search	-	1,151,414
TriviaqQA	-	73,346
SQuAD2.0	论文	87,599
Natural Questions (NQ)	论文	100,231
Simple Wikipedia	论文	102,225
Quora Question Pairs	-	103,663
Altlex	论文	112,696
Wikihow	论文	128,542
Sentence Compression	论文	180,000
AllNLI (SNLI 和 MultiNLI	论文 SNLI，论文 MultiNLI	277,230
Eli5	论文	325,475
SPECTER	论文	684,100
S2ORC 标题/摘要	论文	41,769,185
S2ORC 引用/引用	论文	52,603,982
S2ORC 引用/摘要	论文	116,288,806
PAQ	论文	64,371,441
WikiAnswers	论文	77,427,422
SearchQA	-	582,261
Yahoo Answers 标题/答案	论文	1,198,260
Yahoo Answers 标题/问题	论文	659,896
Yahoo Answers 问题/答案	论文	681,164
MS MARCO	论文	9,144,553
Reddit conversationnal	论文	726,484,430
总计		1,097,953,922