vectorizer.guava开源向量化工具 - 免费生成嵌入向量，用于句子相似度计算和检索

首页

Vectorizer.guava

由 sinequa 开发

由Sinequa开发的向量化工具，能够根据输入的段落或查询生成嵌入向量，用于句子相似度计算和检索任务。

文本嵌入

PyTorch

支持多种语言#多语言向量化 #低延迟推理 #跨语言检索

下载量 204

发布时间 : 10/9/2024

模型简介

该模型是一个多语言句子嵌入模型，能够将文本段落或查询转换为高维向量，用于存储和检索相似内容。支持多种语言，特别优化了英语、法语、德语等11种主要语言。

模型特点

多语言支持

专门训练支持11种主要语言，同时兼容基础模型预训练的91种语言

高效推理

在NVIDIA A10 GPU上FP16模式下仅需1ms处理单个查询，5ms处理32个查询

大小写不敏感

对文本大小写和重音不敏感，提高检索鲁棒性

降维处理

通过额外密集层将输出维度降至256，优化存储和检索效率

模型能力

多语言文本向量化

句子相似度计算

语义检索

跨语言文本匹配

使用案例

信息检索

文档检索系统

构建基于语义的文档检索系统，根据查询内容返回最相关的文档段落

在英语数据集上Recall@100达到0.616

多语言应用

跨语言内容推荐

为多语言网站提供内容推荐功能，匹配不同语言的相似内容

在繁体中文msmarco数据集上Recall@100达到0.738

🚀 `vectorizer.guava` 模型卡片

本模型是由 Sinequa 开发的向量生成器。给定一段文本或查询，它会生成一个嵌入向量。文本向量会存储在我们的向量索引中，而查询向量则在查询时用于在索引中查找相关文本。

支持的语言

该模型在以下语言上进行了训练和测试：

英语
法语
德语
西班牙语
意大利语
荷兰语
日语
葡萄牙语
中文（简体）
中文（繁体）
波兰语

除了这些语言，对于在基础模型预训练期间使用的另外 91 种语言，也可提供基本支持（详见 XLM - R 论文的附录 A）。

🚀 快速开始

分数

指标	值
英语相关性（Recall@100）	0.616

请注意，相关性分数是在多个检索数据集上的平均值（详见评估指标）。

推理时间

GPU	量化类型	批量大小 1	批量大小 32
NVIDIA A10	FP16	1 ms	5 ms
NVIDIA A10	FP32	2 ms	18 ms
NVIDIA T4	FP16	1 ms	12 ms
NVIDIA T4	FP32	3 ms	52 ms
NVIDIA L4	FP16	2 ms	5 ms
NVIDIA L4	FP32	4 ms	24 ms

GPU 内存使用情况

量化类型	内存
FP16	550 MiB
FP32	1050 MiB

请注意，GPU 内存使用情况仅包括在批量大小为 32 的 NVIDIA T4 GPU 上实际模型消耗的 GPU 内存。它不包括 ONNX Runtime 初始化时消耗的固定内存量，该内存量根据使用的 GPU 不同，大约在 0.5 到 1 GiB 之间。

要求

最低 Sinequa 版本：11.10.0
使用 FP16 模型和 CUDA 计算能力为 8.9+（如 NVIDIA L4）的 GPU 时，最低 Sinequa 版本：11.11.0
CUDA 计算能力：高于 5.0（使用 FP16 时高于 6.0）

📚 详细文档

模型详情

概述

参数数量：1.07 亿
基础语言模型：mMiniLMv2 - L6 - H384 - distilled - from - XLMR - Large（论文，GitHub）
不区分大小写和重音
输出维度：256（通过额外的全连接层降维）
训练过程：对于包含挖掘到的难负样本数据的数据集，使用查询 - 文本 - 负样本三元组；对于其他数据集，使用查询 - 文本对。负样本数量通过批量内负样本策略进行扩充

训练数据

该模型使用了 all - MiniLM - L6 - v2 模型中引用的所有数据集进行训练。此外，该模型还在这篇论文中引用的前 9 种上述语言的数据集上进行了训练。它还在这个数据集上进行了波兰语能力的训练，并使用 msmarco - zh 的翻译版本进行了繁体中文能力的训练。

评估指标

英语

为了确定相关性分数，我们对在 [BEIR 基准](https://github.com/beir - cellar/beir) 的数据集上评估得到的结果进行了平均。请注意，所有这些数据集均为英语。

数据集	Recall@100
平均值	0.616
Arguana	0.956
CLIMATE - FEVER	0.471
DBPedia Entity	0.379
FEVER	0.824
FiQA - 2018	0.642
HotpotQA	0.579
MS MARCO	0.85
NFCorpus	0.289
NQ	0.765
Quora	0.993
SCIDOCS	0.467
SciFact	0.899
TREC - COVID	0.104
Webis - Touche - 2020	0.407