bloomz-560m-reranking开源双语重排序模型 - 精准衡量英法查询与上下文语义相关性

首页

Bloomz 560m Reranking

由 cmarkea 开发

基于Bloomz-560m构建的双语重排序模型，用于衡量查询与上下文的语义相关性，支持法语和英语

大型语言模型

Transformers

支持多种语言开源协议:Openrail #跨语言重排序 #问答系统优化 #低资源高效

下载量 17

发布时间 : 3/17/2024

模型简介

该模型专为开放域问答(ODQA)场景设计，通过标准化评分机制对检索器输出的查询/上下文匹配结果进行重新排序，提升结果相关性。支持法语和英语双语处理，在跨语言场景下表现稳定。

模型特点

双语支持

原生支持法语和英语处理，跨语言评分时表现稳定

高效重排序

比传统检索器更高效的语义相关性建模，适合RAG应用场景

标准化评分

输出0-1标准化评分，建议设置0.8阈值过滤低质量结果

模型能力

语义相关性评分

跨语言文本匹配

检索结果重排序

使用案例

信息检索

开放域问答系统

对检索器返回的候选答案进行重排序，提升正确答案的排名

在SQuAD评估中Top-1准确率达83.55%(同语言)/81.89%(跨语言)

多语言文档检索

处理混合法语和英语内容的检索系统

跨语言场景下MRR达88.64，接近同语言表现

🚀 Bloomz-560m 重排序模型

Bloomz-560m 重排序模型旨在衡量问题（查询）与上下文之间的语义对应关系。它基于 cmarkea/bloomz-560m-dpo-chat 模型构建，通过归一化评分，能够有效过滤开放域问答（ODQA）中检索器输出的查询/上下文匹配结果，并以更高效的建模方式对结果进行重新排序。不过，由于计算成本较高，该模型不适用于直接的数据库搜索。此外，该模型具有语言无关性，支持法语和英语，可在跨语言环境中进行有效评分，且不受单语言（英语或法语）环境下表现的影响。

✨ 主要特性

基于特定模型构建，可衡量查询与上下文的语义对应关系。
支持法语和英语，具备跨语言处理能力。
能有效过滤和重排序检索结果。

📦 安装指南

文档未提及安装步骤，暂不展示。

💻 使用示例

基础用法

from transformers import pipeline

reranker = pipeline(
    task='text-classification',
    model='cmarkea/bloomz-560m-reranking',
    top_k=None
)

query: str
contexts: List[str]

similarities = reranker(
    [
        dict(
            text=context, # the model was trained with context in `text`
            text_pair=query # and query in `text_pair` argument.
        )
        for context in contexts
    ]
)

score_label_1 = [
    next(item['score'] for item in entry if item['label'] == 'LABEL_1') 
    for entry in similarities
]
contexts_reranked = sorted(
    zip(score_label_1, contexts),
    key=lambda x: x[0],
    reverse=True
)

score, contexts_cleaned = zip(
    *filter(
        lambda x: x[0] >= 0.8,
        contexts_reranked
    )
)

📚 详细文档

数据集

训练数据集由 mMARCO 数据集和 SQuAD 数据集的“train”分割数据组成。mMARCO 数据集包含查询/正样本/难负样本三元组，SQuAD 数据也被处理成相同的三元组形式。为 SQuAD 生成难负样本时，我们选择与查询主题相同但来自不同查询集的上下文。最终，三元组被扁平化处理，得到查询/上下文句子对，若为查询/正样本对则标签为 1，若为查询/负样本对则标签为 0。在每对元素（查询和上下文）中，法语或英语的语言选择是随机且均匀的。

评估

为评估重排序器的性能，我们使用 SQuAD 数据集的“validation”分割数据。从每个段落中选择第一个问题，以及该段落作为上下文，在理想建模情况下，该上下文应排在首位。评估语料库包含 1204 对需要排序的查询/上下文。

单语言评估（法语/法语）

模型（法语/法语）	平均排名	排名标准差	排名第一比例（%）	排名前十比例（%）	排名前一百比例（%）	平均倒数排名（x100）	排名前平均得分	排名前得分标准差
BM25	14.47	92.19	69.77	92.03	98.09	77.74	NA	NA
CamemBERT	5.72	36.88	69.35	95.51	98.92	79.51	0.83	0.37
DistilCamemBERT	5.54	25.90	66.11	92.77	99.17	76.00	0.80	0.39
mMiniLMv2-L12	4.43	30.27	71.51	95.68	99.42	80.17	0.78	0.38
RoBERTa（多语言）	15.13	60.39	57.23	83.87	96.18	66.21	0.53	0.11
cmarkea/bloomz-560m-reranking	1.49	2.58	83.55	99.17	100	89.98	0.93	0.15
cmarkea/bloomz-3b-reranking	1.22	1.06	89.37	99.75	100	93.79	0.94	0.10

跨语言评估（法语/英语）

模型（法语/英语）	平均排名	排名标准差	排名第一比例（%）	排名前十比例（%）	排名前一百比例（%）	平均倒数排名（x100）	排名前平均得分	排名前得分标准差
BM25	288.04	371.46	21.93	41.93	55.15	28.41	NA	NA
CamemBERT	12.20	61.39	59.55	89.71	97.42	70.38	0.65	0.47
DistilCamemBERT	40.97	104.78	25.66	64.78	88.62	38.83	0.53	0.49
mMiniLMv2-L12	6.91	32.16	59.88	89.95	99.09	70.39	0.61	0.46
RoBERTa（多语言）	79.32	153.62	27.91	49.50	78.16	35.41	0.40	0.12
cmarkea/bloomz-560m-reranking	1.51	1.92	81.89	99.09	100	88.64	0.92	0.15
cmarkea/bloomz-3b-reranking	1.22	0.98	89.20	99.84	100	93.63	0.94	0.10

从评估结果可以看出，跨语言环境对模型性能的影响并不显著。如果在重排序和过滤搜索的前 K 个结果的场景中使用该模型，可以应用 0.8 的阈值来过滤检索器输出的上下文，从而减少 RAG 类型应用中上下文中存在的噪声问题。

📄 许可证

本项目使用的许可证为 bigscience-bloom-rail-1.0。

📖 引用

@online{DeBloomzReranking,
  AUTHOR = {Cyrile Delestre},
  ORGANIZATION = {Cr{\'e}dit Mutuel Ark{\'e}a},
  URL = {https://huggingface.co/cmarkea/bloomz-3b-reranking},
  YEAR = {2024},
  KEYWORDS = {NLP ; Transformers ; LLM ; Bloomz},
}