开源sentence-transformers-multilingual-e5-base模型 - 支持多语言聚类与语义搜索

首页

Sentence Transformers Multilingual E5 Base

由 embaas 开发

这是一个多语言句子转换器模型，将句子和段落映射到768维密集向量空间，支持多种语言，适用于聚类或语义搜索等任务。

文本嵌入

PyTorch

#多语言语义编码 #检索增强生成 #跨语言搜索

下载量 3,526

发布时间 : 5/28/2023

模型简介

该模型是intfloat/multilingual-e5-base的句子转换器版本，能够将文本转换为高维向量表示，支持多语言处理，适用于信息检索、语义相似度计算等场景。

模型特点

多语言支持

能够处理多种语言的文本输入，适用于跨语言应用场景。

高维向量表示

将文本映射到768维密集向量空间，捕捉丰富的语义信息。

前缀区分

支持通过'query:'和'passage:'前缀区分不同用途的文本输入。

模型能力

文本向量化

语义相似度计算

多语言文本处理

信息检索

使用案例

信息检索

文档检索

将查询和文档转换为向量后计算相似度，实现精准检索。

语义分析

问答系统

通过计算问题与候选答案的语义相似度，实现智能问答。

🚀 多语言E5基础模型 (句子转换器)

这是 intfloat/multilingual-e5-base 模型的句子转换器版本。它可以将句子和段落映射到一个768维的密集向量空间，可用于聚类或语义搜索等任务。

🚀 快速开始

安装依赖

使用此模型前，你需要安装 sentence-transformers：

pip install -U sentence-transformers

使用示例

基础用法

from sentence_transformers import SentenceTransformer
# 每个输入文本都应以 "query: " 或 "passage: " 开头，即使是非英文文本。
# 对于检索以外的任务，你可以简单地使用 "query: " 前缀。
sentences = ['query: how much protein should a female eat',
               'query: 南瓜的家常做法',
               "passage: As a general guideline, the CDC's average requirement of protein for women ages 19 to 70 is 46 grams per day. But, as you can see from this chart, you'll need to increase that if you're expecting or training for a marathon. Check out the chart below to see how much protein you should be eating each day.",
               "passage: 1.清炒南瓜丝 原料:嫩南瓜半个 调料:葱、盐、白糖、鸡精 做法: 1、南瓜用刀薄薄的削去表面一层皮,用勺子刮去瓤 2、擦成细丝(没有擦菜板就用刀慢慢切成细丝) 3、锅烧热放油,入葱花煸出香味 4、入南瓜丝快速翻炒一分钟左右,放盐、一点白糖和鸡精调味出锅 2.香葱炒南瓜 原料:南瓜1只 调料:香葱、蒜末、橄榄油、盐 做法: 1、将南瓜去皮,切成片 2、油锅8成热后,将蒜末放入爆香 3、爆香后,将南瓜片放入,翻炒 4、在翻炒的同时,可以不时地往锅里加水,但不要太多 5、放入盐,炒匀 6、南瓜差不多软和绵了之后,就可以关火 7、撒入香葱,即可出锅"]


model = SentenceTransformer('embaas/sentence-transformers-multilingual-e5-base')
embeddings = model.encode(sentences)
print(embeddings)

高级用法

import torch.nn.functional as F

from torch import Tensor
from transformers import AutoTokenizer, AutoModel


def average_pool(last_hidden_states: Tensor,
                 attention_mask: Tensor) -> Tensor:
    last_hidden = last_hidden_states.masked_fill(~attention_mask[..., None].bool(), 0.0)
    return last_hidden.sum(dim=1) / attention_mask.sum(dim=1)[..., None]


# 每个输入文本都应以 "query: " 或 "passage: " 开头，即使是非英文文本。
# 对于检索以外的任务，你可以简单地使用 "query: " 前缀。
input_texts = ['query: how much protein should a female eat',
               'query: 南瓜的家常做法',
               "passage: As a general guideline, the CDC's average requirement of protein for women ages 19 to 70 is 46 grams per day. But, as you can see from this chart, you'll need to increase that if you're expecting or training for a marathon. Check out the chart below to see how much protein you should be eating each day.",
               "passage: 1.清炒南瓜丝 原料:嫩南瓜半个 调料:葱、盐、白糖、鸡精 做法: 1、南瓜用刀薄薄的削去表面一层皮,用勺子刮去瓤 2、擦成细丝(没有擦菜板就用刀慢慢切成细丝) 3、锅烧热放油,入葱花煸出香味 4、入南瓜丝快速翻炒一分钟左右,放盐、一点白糖和鸡精调味出锅 2.香葱炒南瓜 原料:南瓜1只 调料:香葱、蒜末、橄榄油、盐 做法: 1、将南瓜去皮,切成片 2、油锅8成热后,将蒜末放入爆香 3、爆香后,将南瓜片放入,翻炒 4、在翻炒的同时,可以不时地往锅里加水,但不要太多 5、放入盐,炒匀 6、南瓜差不多软和绵了之后,就可以关火 7、撒入香葱,即可出锅"]

tokenizer = AutoTokenizer.from_pretrained('intfloat/multilingual-e5-base')
model = AutoModel.from_pretrained('intfloat/multilingual-e5-base')

# 对输入文本进行分词
batch_dict = tokenizer(input_texts, max_length=512, padding=True, truncation=True, return_tensors='pt')

outputs = model(**batch_dict)
embeddings = average_pool(outputs.last_hidden_state, batch_dict['attention_mask'])

# （可选）对嵌入向量进行归一化
embeddings = F.normalize(embeddings, p=2, dim=1)
scores = (embeddings[:2] @ embeddings[2:].T) * 100
print(scores.tolist())

使用API进行编码

你可以使用 embaas API 对输入进行编码。从 embaas.io 获取你的免费API密钥。

import requests
 
url = "https://api.embaas.io/v1/embeddings/"
 
headers = {
    "Content-Type": "application/json",
    "Authorization": "Bearer ${YOUR_API_KEY}"
}
 
data = {
    "texts": ["This is an example sentence.", "Here is another sentence."],
    "instruction": "query",
    "model": "multilingual-e5-base"
}
 
response = requests.post(url, json=data, headers=headers)

📚 详细文档

评估结果

你可以在这里找到MTEB评估结果。

完整模型架构

SentenceTransformer(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: XLMRobertaModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False})
  (2): Normalize()
)