许可证:Apache-2.0
语言:
基础模型:
- answerdotai/ModernBERT-base
管道标签:文本排序
库名称:sentence-transformers
推理支持:是
Mizan-Rerank-v1
一款革命性的开源模型,能以卓越的效率和准确性对阿拉伯语长文本进行重排序。



概述
Mizan-Rerank-v1 是基于 Transformer 架构的领先开源模型,专为阿拉伯语文本搜索结果重排序而设计。仅需 1.49 亿参数,就在性能和效率之间实现了完美平衡,以显著更少的资源超越了更大的模型。
核心特点
- 轻量高效:1.49 亿参数,远低于竞品的 2.78-5.68 亿参数
- 长文本处理:通过滑动窗口技术支持长达 8192 个标记的文本
- 高速推理:比同类模型快 3 倍
- 阿拉伯语优化:专门针对阿拉伯语语言特点微调
- 资源高效:内存消耗比竞品少 75%
性能基准
硬件性能(RTX 4090 24GB)
模型 |
内存占用 |
响应时间 |
Mizan-Rerank-v1 |
1 GB |
0.1 秒 |
bg-rerank-v2-m3 |
4 GB |
0.3 秒 |
jina-reranker-v2-base-multilingual |
2.5 GB |
0.2 秒 |
MIRACL 数据集结果(ndcg@10)
模型 |
得分 |
Mizan-Rerank-v1 |
0.8865 |
bge-reranker-v2-m3 |
0.8863 |
jina-reranker-v2-base-multilingual |
0.8481 |
Namaa-ARA-Reranker-V1 |
0.7941 |
Namaa-Reranker-v1 |
0.7176 |
ms-marco-MiniLM-L12-v2 |
0.1750 |
重排序与三元组数据集(ndcg@10)
模型 |
重排序数据集 |
三元组数据集 |
Mizan-Rerank-v1 |
1.0000 |
1.0000 |
bge-reranker-v2-m3 |
1.0000 |
0.9998 |
jina-reranker-v2-base-multilingual |
1.0000 |
1.0000 |
Namaa-ARA-Reranker-V1 |
1.0000 |
0.9989 |
Namaa-Reranker-v1 |
1.0000 |
0.9994 |
ms-marco-MiniLM-L12-v2 |
0.8906 |
0.9087 |
训练方法
Mizan-Rerank-v1 在包含 741,159,981 个标记 的多样化语料库上训练,来源包括:
- 真实的阿拉伯语开源数据集
- 人工精心制作和处理的文本
- 专门生成的合成数据
这种全面的训练方法使其能深入理解阿拉伯语的语言上下文。
工作原理
- 接收查询:模型接收用户查询和候选文本
- 内容分析:分析查询与每个文本之间的语义关系
- 相关性评分:为每个文本分配相关性分数
- 重排序:按相关性分数降序排列结果
使用示例
from transformers import AutoModelForSequenceClassification, AutoTokenizer
model = AutoModelForSequenceClassification.from_pretrained("ALJIACHI/Mizan-Rerank-v1")
tokenizer = AutoTokenizer.from_pretrained("ALJIACHI/Mizan-Rerank-v1")
def get_relevance_score(query, passage):
inputs = tokenizer(query, passage, return_tensors="pt", padding=True, truncation=True, max_length=8192)
outputs = model(**inputs)
return outputs.logits.item()
query = "ما هو تفسير الآية وجعلنا من الماء كل شيء حي"
passages = [
"تعني الآية أن الماء هو عنصر أساسي في حياة جميع الكائنات الحية، وهو ضروري لاستمرار الحياة.",
"تم اكتشاف كواكب خارج المجموعة الشمسية تحتوي على مياه متجمدة.",
"تحدث القرآن الكريم عن البرق والرعد في عدة مواضع مختلفة."
]
scores = [(passage, get_relevance_score(query, passage)) for passage in passages]
reranked_passages = sorted(scores, key=lambda x: x[1], reverse=True)
for passage, score in reranked_passages:
print(f"分数: {score:.4f} | 段落: {passage}")
实际示例
示例 1
问题: 2024 年关于税收的新法律是什么?
文本 |
分数 |
官方公报在 2024 年发布了一项新法律,规定将大公司的税收增加 5% |
0.9989 |
税收是国家收入的重要来源,各国税率不同。 |
0.0001 |
政府在 2024 年启动了一个新的可再生能源项目。 |
0.0001 |
示例 2
问题: 如何解释“我们从水中创造了所有生命”这节经文?
文本 |
分数 |
这节经文意味着水是所有生命的基本元素,对维持生命至关重要。 |
0.9996 |
在太阳系外发现了含有冰冻水的行星。 |
0.0000 |
古兰经在多处提到了闪电和雷声。 |
0.0000 |
示例 3
问题: 维生素 D 有哪些好处?
文本 |
分数 |
维生素 D 有助于增强骨骼健康和免疫系统,并在钙吸收中起重要作用。 |
0.9991 |
维生素 D 在某些食品工业中用作防腐剂。 |
0.9941 |
可以通过晒太阳或服用补充剂获取维生素 D。 |
0.9938 |
应用场景
Mizan-Rerank-v1 为阿拉伯语 NLP 应用开辟了新天地:
- 专业阿拉伯语搜索引擎
- 档案系统和数字图书馆
- 对话式 AI 应用
- 电子学习平台
- 信息检索系统
引用
如果您在研究中使用了 Mizan-Rerank-v1,请引用:
@software{Mizan_Rerank_v1_2025,
author = {Ali Aljiachi},
title = {Mizan-Rerank-v1: 革命性的阿拉伯语文本重排序模型},
year = {2025},
publisher = {Hugging Face},
url = {https://huggingface.co/Aljiachi/Mizan-Rerank-v1}
}
@misc{modernbert,
title={更智能、更好、更快、更长:现代双向编码器,用于快速、内存高效和长上下文微调与推理},
author={Benjamin Warner 等},
year={2024},
eprint={2412.13663},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2412.13663},
}
许可证
我们根据 Apache 2.0 许可证发布 Mizan-Rerank 模型权重。