sentence-transformers-e5-large-v2开源句子转换器

首页

Sentence Transformers E5 Large V2

由 embaas 开发

这是一个基于intfloat/e5-large-v2模型的句子转换器版本，能够将句子和段落映射到1024维的密集向量空间，适用于聚类或语义搜索等任务。

文本嵌入

PyTorch

#高维向量嵌入 #语义搜索优化 #多语言支持

下载量 71.83k

发布时间 : 5/29/2023

模型简介

该模型主要用于句子和段落的向量表示，通过将文本转换为高维向量，支持语义相似度计算、信息检索和文本聚类等应用。

模型特点

高维向量表示

能够将句子和段落映射到1024维的密集向量空间，捕捉丰富的语义信息。

语义相似度计算

通过向量空间中的距离计算，准确衡量句子间的语义相似度。

易于集成

提供简单的API接口和sentence-transformers库集成方式，便于快速部署使用。

模型能力

文本向量化

语义相似度计算

信息检索

文本聚类

使用案例

信息检索

语义搜索

通过向量相似度实现基于语义而非关键词的文档搜索

提高搜索结果的相关性和准确性

文本分析

文档聚类

基于语义相似度对大量文档进行自动分类

实现无监督的文档组织和分析

🚀 embaas/sentence-transformers-e5-large-v2

这是 intfloat/e5-large-v2 模型的 sentence-transformers 版本。它能将句子和段落映射到一个 1024 维的密集向量空间，可用于聚类或语义搜索等任务。

🚀 快速开始

本模型可以通过两种方式使用，分别是使用 sentence-transformers 库和使用 embaas API，下面为你详细介绍。

✨ 主要特性

支持 sentence-transformers 库，使用方便。
可通过 embaas API 进行输入编码。
可将句子和段落映射到 1024 维的密集向量空间。

📦 安装指南

若要使用 sentence-transformers 库调用此模型，你需要先安装 sentence-transformers：

pip install -U sentence-transformers

💻 使用示例

基础用法

使用 sentence-transformers 库调用模型的示例代码如下：

from sentence_transformers import SentenceTransformer
sentences = ["This is an example sentence", "Each sentence is converted"]

model = SentenceTransformer('embaas/sentence-transformers-e5-large-v2')
embeddings = model.encode(sentences)
print(embeddings)

高级用法

使用 embaas API 对输入进行编码。你可以从 embaas.io 获取免费的 API 密钥。

import requests
 
url = "https://api.embaas.io/v1/embeddings/"
 
headers = {
    "Content-Type": "application/json",
    "Authorization": "Bearer ${YOUR_API_KEY}"
}
 
data = {
    "texts": ["This is an example sentence.", "Here is another sentence."],
    "instruction": "query",
    "model": "e5-large-v2"
}
 
response = requests.post(url, json=data, headers=headers)

📚 详细文档

评估结果

你可以在 MTEB 排行榜上查看 e5 模型的评估结果。

完整模型架构

SentenceTransformer(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: BertModel 
  (1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False})
  (2): Normalize()
)