🚀 英文和俄文模型
这是一个专为英文和俄文设计的模型,它是 BAAI/bge-reranker-v2-m3 的精简版本。该模型通过去除其他语言的词元,仅保留英文和俄文词元,在保持相同嵌入效果的同时,使模型大小缩减至原模型的约 1/1.5,实现了更高效的存储和使用。
🚀 快速开始
本模型是 BAAI/bge-reranker-v2-m3 的精简版本,词汇表中仅保留了英文和俄文词元。这使得该模型比原始模型小 1.5 倍,同时能生成相同的嵌入向量。模型的精简过程在 此笔记本 中完成。
✨ 主要特性
- 精简高效:仅保留英文和俄文词元,模型体积显著减小,为 1.5 倍于原模型大小。
- 性能一致:在减小模型体积的同时,仍能生成与原模型相同的嵌入向量。
📦 安装指南
文档未提及具体安装步骤,跳过此章节。
💻 使用示例
基础用法
import torch
from transformers import AutoModelForSequenceClassification, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained('qilowoq/bge-reranker-v2-m3-en-ru')
model = AutoModelForSequenceClassification.from_pretrained('qilowoq/bge-reranker-v2-m3-en-ru')
model.eval()
pairs = [('How many people live in Berlin?', 'Berlin has a population of 3,520,031 registered inhabitants in an area of 891.82 square kilometers.'),
('Какая площадь Берлина?', 'Площадь Берлина составляет 891,8 квадратных километров.')]
with torch.no_grad():
inputs = tokenizer(pairs, padding=True, truncation=True, return_tensors='pt')
scores = model(**inputs, return_dict=True).logits.view(-1, ).float()
print(scores)
📚 详细文档
常见问题解答(FAQ)
为文本生成分数
上述代码示例展示了如何使用该模型为文本对生成分数。
📄 许可证
本模型采用 MIT 许可证。
📚 引用
如果您觉得这个仓库有用,请考虑给它点个星并引用以下文献:
@misc{li2023making,
title={Making Large Language Models A Better Foundation For Dense Retrieval},
author={Chaofan Li and Zheng Liu and Shitao Xiao and Yingxia Shao},
year={2023},
eprint={2312.15503},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
@misc{chen2024bge,
title={BGE M3-Embedding: Multi-Lingual, Multi-Functionality, Multi-Granularity Text Embeddings Through Self-Knowledge Distillation},
author={Jianlv Chen and Shitao Xiao and Peitian Zhang and Kun Luo and Defu Lian and Zheng Liu},
year={2024},
eprint={2402.03216},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
📋 模型信息
属性 |
详情 |
模型类型 |
专为英文和俄文设计的精简模型 |
训练数据 |
未提及 |
库名称 |
sentence-transformers |
管道标签 |
text-ranking |
标签 |
transformers、sentence-transformers、text-embeddings-inference |
基础模型 |
BAAI/bge-reranker-v2-m3 |
支持语言 |
英文、俄文 |
许可证 |
MIT |