bge-reranker-v2-m3-en-ru开源模型 - 精简版支持英俄文，小而高效生成嵌入向量

首页

Bge Reranker V2 M3 En Ru

由 qilowoq 开发

这是BAAI/bge-reranker-v2-m3的精简版本，仅保留英文和俄文的词汇表，比原始模型小1.5倍，同时能生成相同的嵌入向量。

文本嵌入

Transformers

支持多种语言开源协议:MIT #多语言文本排序 #精简词汇表 #英俄双语支持

下载量 677

发布时间 : 9/5/2024

模型简介

该模型主要用于文本排序任务，支持英文和俄文文本的嵌入向量生成。

模型特点

精简词汇表

仅保留英文和俄文的词汇表，使模型体积比原始版本小1.5倍

保持性能

尽管体积减小，但仍能生成与原始模型相同的嵌入向量

多语言支持

专门优化支持英文和俄文两种语言的文本处理

模型能力

文本嵌入生成

文本相似度计算

跨语言文本处理

使用案例

信息检索

问答系统

用于评估问题和候选答案的相关性

提高问答系统的准确性和相关性

文档排序

对搜索结果或文档集合进行相关性排序

提升搜索结果的质量和用户体验

🚀 英文和俄文模型

这是一个专为英文和俄文设计的模型，它是 BAAI/bge-reranker-v2-m3 的精简版本。该模型通过去除其他语言的词元，仅保留英文和俄文词元，在保持相同嵌入效果的同时，使模型大小缩减至原模型的约 1/1.5，实现了更高效的存储和使用。

🚀 快速开始

本模型是 BAAI/bge-reranker-v2-m3 的精简版本，词汇表中仅保留了英文和俄文词元。这使得该模型比原始模型小 1.5 倍，同时能生成相同的嵌入向量。模型的精简过程在此笔记本中完成。

✨ 主要特性

精简高效：仅保留英文和俄文词元，模型体积显著减小，为 1.5 倍于原模型大小。
性能一致：在减小模型体积的同时，仍能生成与原模型相同的嵌入向量。

📦 安装指南

文档未提及具体安装步骤，跳过此章节。

💻 使用示例

基础用法

import torch
from transformers import AutoModelForSequenceClassification, AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained('qilowoq/bge-reranker-v2-m3-en-ru')
model = AutoModelForSequenceClassification.from_pretrained('qilowoq/bge-reranker-v2-m3-en-ru')
model.eval()

pairs = [('How many people live in Berlin?', 'Berlin has a population of 3,520,031 registered inhabitants in an area of 891.82 square kilometers.'),
         ('Какая площадь Берлина?', 'Площадь Берлина составляет 891,8 квадратных километров.')]
with torch.no_grad():
    inputs = tokenizer(pairs, padding=True, truncation=True, return_tensors='pt')
    scores = model(**inputs, return_dict=True).logits.view(-1, ).float()
    print(scores)

📚 详细文档

常见问题解答（FAQ）

为文本生成分数

上述代码示例展示了如何使用该模型为文本对生成分数。

📄 许可证

本模型采用 MIT 许可证。

📚 引用

如果您觉得这个仓库有用，请考虑给它点个星并引用以下文献：

@misc{li2023making,
      title={Making Large Language Models A Better Foundation For Dense Retrieval}, 
      author={Chaofan Li and Zheng Liu and Shitao Xiao and Yingxia Shao},
      year={2023},
      eprint={2312.15503},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}
@misc{chen2024bge,
      title={BGE M3-Embedding: Multi-Lingual, Multi-Functionality, Multi-Granularity Text Embeddings Through Self-Knowledge Distillation}, 
      author={Jianlv Chen and Shitao Xiao and Peitian Zhang and Kun Luo and Defu Lian and Zheng Liu},
      year={2024},
      eprint={2402.03216},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

📋 模型信息

属性	详情
模型类型	专为英文和俄文设计的精简模型
训练数据	未提及
库名称	sentence-transformers
管道标签	text-ranking
标签	transformers、sentence-transformers、text-embeddings-inference
基础模型	BAAI/bge-reranker-v2-m3
支持语言	英文、俄文
许可证	MIT