bge-large-en-v1.5-quant开源模型 - 加速推理，为高效应用提供强力支持！

首页

Bge Large En V1.5 Quant

由 RedHatAI 开发

BGE-large-en-v1.5的量化(INT8)ONNX变体，通过DeepSparse进行推理加速

文本嵌入

Transformers

英语开源协议:MIT #INT8量化 #语义相似度计算 #低延迟推理

下载量 1,094

发布时间 : 10/3/2023

模型简介

这是BGE-large-en-v1.5嵌入模型的量化版本，使用Sparsify进行量化优化，并通过DeepSparseSentenceTransformers实现推理加速。适用于需要高效文本嵌入的场景。

模型特点

高效推理

通过DeepSparse在10核笔记本电脑上实现4.8倍延迟提升，在16核AWS实例上实现3.5倍提升

量化优化

使用Sparsify进行INT8量化，保持模型性能的同时减少计算资源需求

多任务支持

支持语义文本相似度、文本分类和对分类等多种自然语言处理任务

模型能力

文本嵌入生成

语义相似度计算

文本分类

句子对分类

使用案例

文本相似度

文档检索

计算文档间的语义相似度，用于信息检索系统

在STS基准测试中达到86.6%的余弦相似度皮尔逊相关系数

重复问题检测

识别语义相似的重复问题

在SprintDuplicateQuestions数据集上达到99.85%的准确率

文本分类

情感分析

对文本进行情感倾向分类

在AmazonCounterfactual分类任务上达到75.54%的准确率

🚀 bge-large-en-v1.5-quant

bge-large-en-v1.5-quant 是一个经过量化（INT8）的 ONNX 变体嵌入模型，借助 Sparsify 进行量化加速，利用 DeepSparseSentenceTransformers 进行推理，能有效提升推理性能。

🚀 快速开始

DeepSparse 能够在 10 核笔记本电脑上将延迟性能提高 4.8 倍，在 16 核 AWS 实例上最高可提高 3.5 倍。

安装依赖

pip install -U deepsparse-nightly[sentence_transformers]

使用示例

from deepsparse.sentence_transformers import DeepSparseSentenceTransformer
model = DeepSparseSentenceTransformer('neuralmagic/bge-large-en-v1.5-quant', export=False)

# 待编码的句子
sentences = ['This framework generates embeddings for each input sentence',
    'Sentences are passed as a list of string.',
    'The quick brown fox jumps over the lazy dog.']

# 通过调用 model.encode() 对句子进行编码
embeddings = model.encode(sentences)

# 打印嵌入向量
for sentence, embedding in zip(sentences, embeddings):
    print("Sentence:", sentence)
    print("Embedding:", embedding.shape)
    print("")

对于这些模型和稀疏化方法的一般性问题，可通过我们的社区 Slack 联系工程团队。

📚 详细文档

模型信息

属性	详情
模型类型	量化（INT8）的 ONNX 变体嵌入模型
基础模型	bge-large-en-v1.5
量化工具	Sparsify
推理工具	DeepSparseSentenceTransformers

评估结果

分类任务（Classification）

数据集：MTEB AmazonCounterfactualClassification (en)
评估指标：
- 准确率（accuracy）：75.53731343283583
- 平均精度（ap）：38.30609312253564
- F1 值（f1）：69.42802757893695

语义文本相似度任务（STS）

数据集：多个 MTEB STS 相关数据集，如 MTEB BIOSSES、MTEB SICK - R 等
评估指标：
- 余弦相似度皮尔逊相关系数（cos_sim_pearson）：不同数据集结果不同，如 MTEB BIOSSES 为 89.27346145216443
- 余弦相似度斯皮尔曼相关系数（cos_sim_spearman）：不同数据集结果不同
- 欧几里得距离皮尔逊相关系数（euclidean_pearson）：不同数据集结果不同
- 欧几里得距离斯皮尔曼相关系数（euclidean_spearman）：不同数据集结果不同
- 曼哈顿距离皮尔逊相关系数（manhattan_pearson）：不同数据集结果不同
- 曼哈顿距离斯皮尔曼相关系数（manhattan_spearman）：不同数据集结果不同

成对分类任务（PairClassification）

数据集：多个 MTEB 成对分类相关数据集，如 MTEB SprintDuplicateQuestions、MTEB TwitterSemEval2015 等
评估指标：
- 余弦相似度准确率（cos_sim_accuracy）：不同数据集结果不同，如 MTEB SprintDuplicateQuestions 为 99.84752475247525
- 余弦相似度平均精度（cos_sim_ap）：不同数据集结果不同
- 余弦相似度 F1 值（cos_sim_f1）：不同数据集结果不同
- 余弦相似度精确率（cos_sim_precision）：不同数据集结果不同
- 余弦相似度召回率（cos_sim_recall）：不同数据集结果不同
- 点积准确率（dot_accuracy）：不同数据集结果不同
- 点积平均精度（dot_ap）：不同数据集结果不同
- 点积 F1 值（dot_f1）：不同数据集结果不同
- 点积精确率（dot_precision）：不同数据集结果不同
- 点积召回率（dot_recall）：不同数据集结果不同
- 欧几里得距离准确率（euclidean_accuracy）：不同数据集结果不同
- 欧几里得距离平均精度（euclidean_ap）：不同数据集结果不同
- 欧几里得距离 F1 值（euclidean_f1）：不同数据集结果不同
- 欧几里得距离精确率（euclidean_precision）：不同数据集结果不同
- 欧几里得距离召回率（euclidean_recall）：不同数据集结果不同
- 曼哈顿距离准确率（manhattan_accuracy）：不同数据集结果不同
- 曼哈顿距离平均精度（manhattan_ap）：不同数据集结果不同
- 曼哈顿距离 F1 值（manhattan_f1）：不同数据集结果不同
- 曼哈顿距离精确率（manhattan_precision）：不同数据集结果不同
- 曼哈顿距离召回率（manhattan_recall）：不同数据集结果不同