Mizan-Rerank-v1开源模型 - 高效准确对阿拉伯语长文本进行重排序

首页

Mizan Rerank V1

由 ALJIACHI 开发

一款革命性的开源模型，能以卓越的效率和准确性对阿拉伯语长文本进行重排序。

文本嵌入

Safetensors

支持多种语言开源协议:Apache-2.0 #阿拉伯语重排序 #长文本处理 #高效推理

下载量 167

发布时间 : 3/31/2025

模型简介

基于Transformer架构的领先开源模型，专为阿拉伯语文本搜索结果重排序而设计。在性能和效率之间实现了完美平衡。

模型特点

轻量高效

仅1.49亿参数，远低于竞品的2.78-5.68亿参数

长文本处理

通过滑动窗口技术支持长达8192个标记的文本

高速推理

比同类模型快3倍

阿拉伯语优化

专门针对阿拉伯语语言特点微调

资源高效

内存消耗比竞品少75%

模型能力

阿拉伯语文本重排序

长文本处理

高效推理

使用案例

信息检索

阿拉伯语搜索引擎

提升阿拉伯语搜索结果的排序质量

在MIRACL数据集上ndcg@10得分0.8865

数字图书馆

优化阿拉伯语文档的检索结果排序

在重排序数据集上ndcg@10得分1.0000

教育技术

电子学习平台

为阿拉伯语学习资源提供精准排序

🚀 Mizan-Rerank-v1

Mizan-Rerank-v1是一款革命性的开源模型，专为阿拉伯语长文本重排序而设计，具备卓越的效率和准确性，能有效提升阿拉伯语搜索结果的质量。

🚀 快速开始

Mizan-Rerank-v1是基于Transformer架构的领先开源模型，专为阿拉伯语文本的搜索结果重排序而设计。它仅拥有1.49亿个参数，在性能和效率之间实现了完美平衡，在使用显著更少资源的情况下，表现优于更大的模型。

✨ 主要特性

轻量级且高效：仅1.49亿个参数，而竞争对手的参数数量在2.78 - 5.68亿之间。
长文本处理：使用滑动窗口技术，可处理多达8192个标记。
高速推理：比同类模型快3倍。
阿拉伯语优化：专门针对阿拉伯语的细微差别进行了微调。
资源高效：比竞争对手节省75%的内存消耗。

📊 性能基准

硬件性能（RTX 4090 24GB）

模型	内存使用	响应时间
Mizan-Rerank-v1	1 GB	0.1秒
bg-rerank-v2-m3	4 GB	0.3秒
jina-reranker-v2-base-multilingual	2.5 GB	0.2秒

MIRACL数据集结果（ndcg@10）

模型	得分
Mizan-Rerank-v1	0.8865
bge-reranker-v2-m3	0.8863
jina-reranker-v2-base-multilingual	0.8481
Namaa-ARA-Reranker-V1	0.7941
Namaa-Reranker-v1	0.7176
ms-marco-MiniLM-L12-v2	0.1750

重排序和三元组数据集（ndcg@10）

模型	重排序数据集	三元组数据集
Mizan-Rerank-v1	1.0000	1.0000
bge-reranker-v2-m3	1.0000	0.9998
jina-reranker-v2-base-multilingual	1.0000	1.0000
Namaa-ARA-Reranker-V1	1.0000	0.9989
Namaa-Reranker-v1	1.0000	0.9994
ms-marco-MiniLM-L12-v2	0.8906	0.9087

🔧 技术细节

Mizan-Rerank-v1在来自以下来源的7.41159981亿个标记的多样化语料库上进行了训练：

真实的阿拉伯语开源数据集
手动制作和处理的文本
专门生成的合成数据

这种全面的训练方法使模型能够深入理解阿拉伯语的语言环境。

🛠️ 工作原理

接收查询：模型接收用户查询和候选文本。
内容分析：分析查询与每个文本之间的语义关系。
相关性评分：为每个文本分配相关性得分。
重排序：按相关性得分降序对结果进行排序。

💻 使用示例

基础用法

from transformers import AutoModelForSequenceClassification, AutoTokenizer

# 加载模型和分词器
model = AutoModelForSequenceClassification.from_pretrained("ALJIACHI/Mizan-Rerank-v1")
tokenizer = AutoTokenizer.from_pretrained("ALJIACHI/Mizan-Rerank-v1")

# 计算相关性得分的函数
def get_relevance_score(query, passage):
    inputs = tokenizer(query, passage, return_tensors="pt", padding=True, truncation=True, max_length=8192)
    outputs = model(**inputs)
    return outputs.logits.item()

# 示例用法
query = "ما هو تفسير الآية وجعلنا من الماء كل شيء حي"
passages = [
    "تعني الآية أن الماء هو عنصر أساسي في حياة جميع الكائنات الحية، وهو ضروري لاستمرار الحياة.",
    "تم اكتشاف كواكب خارج المجموعة الشمسية تحتوي على مياه متجمدة.",
    "تحدث القرآن الكريم عن البرق والرعد في عدة مواضع مختلفة."
]

# 获取每个段落的得分
scores = [(passage, get_relevance_score(query, passage)) for passage in passages]

# 对段落进行重排序
reranked_passages = sorted(scores, key=lambda x: x[1], reverse=True)

# 打印结果
for passage, score in reranked_passages:
    print(f"得分: {score:.4f} | 段落: {passage}")

📚 详细文档

实际示例

示例1

问题：2024年新的税收法律是什么？

文本	得分
官方报纸发布了2024年的新法律，规定对大公司的税收增加5%	0.9989
税收是国家收入的重要来源，其比例因国家而异。	0.0001
2024年政府启动了一个新的可再生能源项目。	0.0001

示例2

问题：“我们从水中创造了一切有生命的东西”这句经文的解释是什么？

文本	得分
这句经文意味着水是所有生物生存的基本元素，对生命的延续至关重要。	0.9996
已发现太阳系外的行星含有冰冻水。	0.0000
古兰经在多个不同的地方提到了闪电和雷声。	0.0000

示例3

问题：维生素D有什么好处？

文本	得分
维生素D有助于增强骨骼健康和免疫系统，在钙的吸收中也起着重要作用。	0.9991
维生素D在一些食品工业中用作防腐剂。	0.9941
可以通过晒太阳或服用营养补充剂来获取维生素D。	0.9938

应用场景

Mizan-Rerank-v1为阿拉伯语自然语言处理应用开辟了新的前景：

专业阿拉伯语搜索引擎
存档系统和数字图书馆
对话式人工智能应用
电子学习平台
信息检索系统

📖 引用

如果您在研究中使用了Mizan-Rerank-v1，请引用以下内容：

@software{Mizan_Rerank_v1_2025,
  author = {Ali Aljiachi},
  title = {Mizan-Rerank-v1: A Revolutionary Arabic Text Reranking Model},
  year = {2025},
  publisher = {Hugging Face},
  url = {https://huggingface.co/Aljiachi/Mizan-Rerank-v1}
}

@misc{modernbert,
      title={Smarter, Better, Faster, Longer: A Modern Bidirectional Encoder for Fast, Memory Efficient, and Long Context Finetuning and Inference}, 
      author={Benjamin Warner and Antoine Chaffin and Benjamin Clavié and Orion Weller and Oskar Hallström and Said Taghadouini and Alexis Gallagher and Raja Biswas and Faisal Ladhak and Tom Aarsen and Nathan Cooper and Griffin Adams and Jeremy Howard and Iacopo Poli},
      year={2024},
      eprint={2412.13663},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2412.13663}, 
}