首页

Mxbai Rerank Large V2 GGUF

由 Mungert 开发

mxbai-rerank-large-v2是一个多语言文本重排序模型，支持多种语言和多种量化格式，适用于不同硬件环境。

文本嵌入支持多种语言开源协议:Apache-2.0 #多语言重排序 #低内存优化 #量化推理

下载量 2,209

发布时间 : 3/24/2025

模型简介

该模型是一个多语言文本重排序模型，支持多种语言和多种量化格式，适用于不同硬件环境。模型提供了多种量化版本，以适应不同的计算和内存需求。

模型特点

多语言支持

支持14种语言，包括英语、中文、德语、日语等。

多种量化格式

提供BF16、F16、Q4_K、Q6_K、Q8_0等多种量化格式，适应不同硬件需求。

高效推理

针对不同硬件优化，支持BF16和FP16加速，提供高性能推理。

低内存需求

提供极低位量化版本（如IQ3_XS、Q4_0），适合低内存设备。

模型能力

文本重排序

多语言处理

高效推理

低内存推理

使用案例

信息检索

搜索引擎结果排序

对搜索引擎返回的结果进行重排序，提高相关性。

推荐系统

推荐内容排序

对推荐系统中的内容进行重排序，提升用户体验。

🚀 mxbai-rerank-large-v2 GGUF模型

mxbai-rerank-large-v2 GGUF模型是强大的重排器模型家族中的大型模型。该模型具备先进的性能和高效性，支持多语言（100+种语言，尤其在英语和中文上表现出色），还支持代码处理和长上下文处理。

🚀 快速开始

选择合适的模型格式

选择正确的模型格式取决于你的硬件能力和内存限制。

BF16（Brain Float 16） – 若有BF16加速功能则使用

一种16位浮点格式，专为更快的计算而设计，同时保持良好的精度。
提供与FP32 相似的动态范围，但内存使用更低。
如果你的硬件支持BF16加速（查看设备规格），建议使用。
与FP32相比，适用于高性能推理，且内存占用减少。

📌 使用BF16的情况： ✔ 你的硬件具有原生BF16支持（例如，较新的GPU、TPU）。 ✔ 你希望在节省内存的同时获得更高的精度。 ✔ 你计划将模型重新量化为其他格式。

📌 避免使用BF16的情况： ❌ 你的硬件不支持BF16（可能会回退到FP32并运行较慢）。 ❌ 你需要与缺乏BF16优化的旧设备兼容。

F16（Float 16） – 比BF16更广泛支持

一种16位浮点格式，精度高，但取值范围比BF16小。
适用于大多数支持FP16加速的设备（包括许多GPU和一些CPU）。
数值精度略低于BF16，但通常足以进行推理。

📌 使用F16的情况： ✔ 你的硬件支持FP16但不支持BF16。 ✔ 你需要在速度、内存使用和准确性之间取得平衡。 ✔ 你在GPU或其他针对FP16计算优化的设备上运行。

📌 避免使用F16的情况： ❌ 你的设备缺乏原生FP16支持（运行速度可能比预期慢）。 ❌ 你有内存限制。

量化模型（Q4_K、Q6_K、Q8等） – 用于CPU和低显存推理

量化可在尽可能保持准确性的同时减小模型大小和内存使用。

低比特模型（Q4_K） → 最适合最小化内存使用，但精度可能较低。
高比特模型（Q6_K、Q8_0） → 准确性更好，但需要更多内存。

📌 使用量化模型的情况： ✔ 你在CPU上进行推理，需要优化的模型。 ✔ 你的设备显存较低，无法加载全精度模型。 ✔ 你希望在保持合理准确性的同时减少内存占用。

📌 避免使用量化模型的情况： ❌ 你需要最高的准确性（全精度模型更适合）。 ❌ 你的硬件有足够的显存用于更高精度的格式（BF16/F16）。

极低比特量化（IQ3_XS、IQ3_S、IQ3_M、Q4_K、Q4_0）

这些模型针对极致的内存效率进行了优化，非常适合低功耗设备或内存是关键限制因素的大规模部署。

IQ3_XS：超低比特量化（3位），具有极致的内存效率。
- 使用场景：最适合超低内存设备，即使Q4_K也太大的情况。
- 权衡：与高比特量化相比，准确性较低。
IQ3_S：小块大小，以实现最大内存效率。
- 使用场景：最适合低内存设备，当IQ3_XS过于激进时。
IQ3_M：中等块大小，比IQ3_S具有更好的准确性。
- 使用场景：适用于低内存设备，当IQ3_S限制太大时。
Q4_K：4位量化，具有逐块优化，以提高准确性。
- 使用场景：最适合低内存设备，当Q6_K太大时。
Q4_0：纯4位量化，针对ARM设备进行了优化。
- 使用场景：最适合基于ARM的设备或低内存环境。

总结表格：模型格式选择

模型格式	精度	内存使用	设备要求	最佳使用场景
BF16	最高	高	支持BF16的GPU/CPU	高速推理且减少内存使用
F16	高	高	支持FP16的设备	当BF16不可用时的GPU推理
Q4_K	中低	低	CPU或低显存设备	最适合内存受限的环境
Q6_K	中等	适中	内存更多的CPU	在量化的同时保持较好的准确性
Q8_0	高	适中	有足够显存的CPU或GPU	量化模型中准确性最佳
IQ3_XS	非常低	非常低	超低内存设备	极致的内存效率和低准确性
Q4_0	低	低	ARM或低内存设备	llama.cpp可针对ARM设备进行优化

📦 安装指南

安装mxbai-rerank

pip install mxbai-rerank

💻 使用示例

基础用法

from mxbai_rerank import MxbaiRerankV2

model = MxbaiRerankV2("mixedbread-ai/mxbai-rerank-large-v2")

query = "Who wrote 'To Kill a Mockingbird'?"
documents = [
    "'To Kill a Mockingbird' is a novel by Harper Lee published in 1960. It was immediately successful, winning the Pulitzer Prize, and has become a classic of modern American literature.",
    "The novel 'Moby-Dick' was written by Herman Melville and first published in 1851. It is considered a masterpiece of American literature and deals with complex themes of obsession, revenge, and the conflict between good and evil.",
    "Harper Lee, an American novelist widely known for her novel 'To Kill a Mockingbird', was born in 1926 in Monroeville, Alabama. She received the Pulitzer Prize for Fiction in 1961.",
    "Jane Austen was an English novelist known primarily for her six major novels, which interpret, critique and comment upon the British landed gentry at the end of the 18th century.",
    "The 'Harry Potter' series, which consists of seven fantasy novels written by British author J.K. Rowling, is among the most popular and critically acclaimed books of the modern era.",
    "'The Great Gatsby', a novel written by American author F. Scott Fitzgerald, was published in 1925. The story is set in the Jazz Age and follows the life of millionaire Jay Gatsby and his pursuit of Daisy Buchanan."
]

# Lets get the scores
results = model.rank(query, documents, return_documents=True, top_k=3)

print(results)

📚 详细文档

性能

基准测试结果

模型	BEIR平均	多语言	中文	代码搜索	延迟（秒）
mxbai-rerank-large-v2	57.49	29.79	84.16	32.05	0.89
mxbai-rerank-base-v2	55.57	28.56	83.70	31.73	0.67
mxbai-rerank-large-v1	49.32	21.88	72.53	30.72	2.24

*延迟在A100 GPU上测量

训练细节

模型使用三步流程进行训练：

GRPO（引导式强化提示优化）
对比学习
偏好学习

更多详细信息，请查看我们的技术博客文章。相关论文即将发布。

🔧 技术细节

包含的文件及详情

`mxbai-rerank-large-v2-bf16.gguf`

模型权重以BF16保存。
如果你想将模型重新量化为不同格式，请使用此文件。
如果你的设备支持BF16加速，则最佳。

`mxbai-rerank-large-v2-f16.gguf`

模型权重以F16存储。
如果你的设备支持FP16，尤其是当BF16不可用时使用。

`mxbai-rerank-large-v2-bf16-q8_0.gguf`

输出和嵌入保持为BF16。
所有其他层量化为Q8_0。
如果你的设备支持BF16，并且你想要量化版本，则使用。

`mxbai-rerank-large-v2-f16-q8_0.gguf`

输出和嵌入保持为F16。
所有其他层量化为Q8_0。

`mxbai-rerank-large-v2-q4_k.gguf`

输出和嵌入量化为Q8_0。
所有其他层量化为Q4_K。
适用于内存有限的CPU推理。

`mxbai-rerank-large-v2-q4_k_s.gguf`

最小的Q4_K变体，以牺牲准确性为代价使用更少的内存。
最适合极低内存设置。

`mxbai-rerank-large-v2-q6_k.gguf`

输出和嵌入量化为Q8_0。
所有其他层量化为Q6_K。

`mxbai-rerank-large-v2-q8_0.gguf`

完全Q8量化的模型，以获得更好的准确性。
需要更多内存，但提供更高的精度。

`mxbai-rerank-large-v2-iq3_xs.gguf`

IQ3_XS量化，针对极致的内存效率进行了优化。
最适合超低内存设备。

`mxbai-rerank-large-v2-iq3_m.gguf`

IQ3_M量化，提供中等块大小以提高准确性。
适用于低内存设备。

`mxbai-rerank-large-v2-q4_0.gguf`

纯Q4_0量化，针对ARM设备进行了优化。
最适合低内存环境。
若追求更高准确性，可优先选择IQ4_NL。

📄 许可证

本项目采用Apache-2.0许可证。

🎓 引用

@online{v2rerank2025mxbai,
  title={Baked-in Brilliance: Reranking Meets RL with mxbai-rerank-v2},
  author={Sean Lee and Rui Huang and Aamir Shakir and Julius Lipp},
  year={2025},
  url={https://www.mixedbread.com/blog/mxbai-rerank-v2},
}