bge-m3_en_ru开源模型 - 精简词汇表，高效处理英语和俄语嵌入任务

首页

Bge M3 En Ru

由 TatonkaHF 开发

适用于英语和俄语的bge-m3模型，词汇表精简版本，保留了英语和俄语的词汇，词汇量缩减至原版的21%，整体模型参数量为原版的63.3%，且不影响英语和俄语嵌入的质量。

文本嵌入

Transformers

支持多种语言#英俄双语嵌入 #词汇精简优化 #多粒度语义编码

下载量 1,174

发布时间 : 6/14/2024

模型简介

这是一个词汇表精简版本的bge-m3模型，专门针对英语和俄语优化，适用于句子相似度计算和特征提取任务。

模型特点

词汇表精简

仅保留英语和俄语的词汇，词汇量缩减至原版的21%，模型参数量为原版的63.3%。

多语言支持

专门针对英语和俄语优化，不影响这两种语言的嵌入质量。

高效嵌入

适用于句子相似度计算和特征提取任务，性能优异。

模型能力

句子嵌入

特征提取

句子相似度计算

使用案例

自然语言处理

句子相似度计算

计算两个句子之间的相似度，适用于搜索、推荐系统等场景。

特征提取

将句子转换为高维向量，用于后续的机器学习任务。

🚀 bge-m3 英文和俄文模型

bge-m3 英文和俄文模型是 BAAI/bge-m3 经过分词器缩减后的版本。该模型的词汇表仅保留了英文和俄文的标记，词汇表大小缩减至原模型的 21%，整个模型的参数数量为原模型的 63.3%，但英文和俄文嵌入的质量并未受到损失。

🚀 快速开始

安装依赖

使用该模型前，你需要安装 sentence-transformers 库：

pip install -U sentence-transformers

使用示例

基础用法（使用 sentence-transformers 库）

from sentence_transformers import SentenceTransformer
sentences = ["This is an example sentence", "Each sentence is converted"]

model = SentenceTransformer('TatonkaHF/bge-m3_en_ru')
embeddings = model.encode(sentences)
print(embeddings)

高级用法（使用 HuggingFace Transformers 库）

若未安装 sentence-transformers 库，你可以按以下方式使用该模型：首先将输入传递给 Transformer 模型，然后对上下文词嵌入应用正确的池化操作。

from transformers import AutoTokenizer, AutoModel
import torch


#Mean Pooling - Take attention mask into account for correct averaging
def mean_pooling(model_output, attention_mask):
    token_embeddings = model_output[0] #First element of model_output contains all token embeddings
    input_mask_expanded = attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float()
    return torch.sum(token_embeddings * input_mask_expanded, 1) / torch.clamp(input_mask_expanded.sum(1), min=1e-9)


# Sentences we want sentence embeddings for
sentences = ['This is an example sentence', 'Each sentence is converted']

# Load model from HuggingFace Hub
tokenizer = AutoTokenizer.from_pretrained('TatonkaHF/bge-m3_en_ru')
model = AutoModel.from_pretrained('TatonkaHF/bge-m3_en_ru')

# Tokenize sentences
encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt')

# Compute token embeddings
with torch.no_grad():
    model_output = model(**encoded_input)

# Perform pooling. In this case, mean pooling.
sentence_embeddings = mean_pooling(model_output, encoded_input['attention_mask'])

print("Sentence embeddings:")
print(sentence_embeddings)

📚 详细文档

模型规格

其他 bge-m3 模型也进行了缩减，具体如下：

模型名称
bge-m3-retromae_en_ru
bge-m3-unsupervised_en_ru
bge-m3_en_ru

完整模型架构

SentenceTransformer(
  (0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: XLMRobertaModel 
  (1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)