Bloomz-3b-reranking开源重排序模型 - 跨英法双语衡量查询与上下文语义相关性

首页

Bloomz 3b Reranking

由 cmarkea 开发

基于Bloomz-3b构建的跨语言重排序模型，用于衡量查询与上下文之间的语义相关性，支持法语和英语。

大型语言模型

Transformers

支持多种语言开源协议:Openrail #跨语言重排序 #语义相关性评分 #开放域问答

下载量 115

发布时间 : 3/15/2024

模型简介

该模型旨在通过标准化评分筛选开放域问答场景中的查询/上下文匹配结果，并以比检索器更高效的建模方式重新排序结果。适用于跨语言场景，能有效处理法语和英语的文本排序任务。

模型特点

跨语言支持

支持法语和英语，在跨语言场景中表现优异，且不受单语言场景行为影响。

高效重排序

通过标准化评分高效筛选查询/上下文匹配结果，比传统检索器更精确。

高精度

在同语言和跨语言评估中均表现出色，Top-1准确率高达89%以上。

模型能力

语义相关性评分

跨语言文本排序

开放域问答结果重排序

使用案例

信息检索

开放域问答系统

用于重排序检索器输出的查询/上下文匹配结果，提升问答系统的准确性。

Top-1准确率89.37%（法语/法语），89.20%（法语/英语）

多语言应用

跨语言文档检索

支持法语和英语的跨语言文档检索和排序。

MRR指标93.79（法语/法语），93.63（法语/英语）

🚀 Bloomz-3b 重排序模型

本重排序模型基于 cmarkea/bloomz-3b-dpo-chat 模型构建，旨在衡量问题（查询）与上下文之间的语义对应关系。通过归一化评分，它有助于在开放域问答（ODQA）场景中过滤检索器输出的查询/上下文匹配结果。此外，它能够使用比检索器更高效的建模方法对结果进行重新排序。不过，由于计算成本较高，这种建模类型并不适合直接进行数据库搜索。

该模型支持法语和英语，具有语言无关性。因此，它可以在跨语言环境中有效评分，而不受单语言环境（英语或法语）下的行为影响。

📦 数据集

训练数据集由 mMARCO 数据集组成，包含查询/正样本/难负样本三元组。此外，我们还纳入了 SQuAD 数据集中“训练”分割的数据，形成查询/正样本/难负样本三元组。为了为 SQuAD 生成难负样本数据，我们考虑了与查询主题相同但来自不同查询集的上下文。因此，负样本观察结果与查询属于相同主题，但可能不包含问题的答案。

最后，将三元组展开，得到查询/上下文句子对，若为查询/正样本则标签为 1，若为查询/负样本则标签为 0。在每对元素（查询和上下文）中，随机且均匀地选择法语或英语。

📊 评估

为了评估重排序器的性能，我们将使用 SQuAD 数据集的“验证”分割。我们将从每个段落中选择第一个问题，以及构成应在 Oracle 建模中排名第一的上下文的段落。有趣的是，主题数量有限，每个与查询不匹配的对应主题的上下文都被视为难负样本（主题外的其他上下文为简单负样本）。因此，我们可以构建以下表格，每个主题显示上下文数量和相关查询：

主题名称	上下文数量	主题名称	上下文数量
Normans	39	Civil_disobedience	26
Computational_complexity_theory	48	Construction	22
Southern_California	39	Private_school	26
Sky_(United_Kingdom)	22	Harvard_University	30
Victoria_(Australia)	25	Jacksonville,_Florida	21
Huguenot	44	Economic_inequality	44
Steam_engine	46	University_of_Chicago	37
Oxygen	43	Yuan_dynasty	47
1973_oil_crisis	24	Immune_system	49
European_Union_law	40	Intergovernmental_Panel_on_Climate_Change	24
Amazon_rainforest	21	Prime_number	31
Ctenophora	31	Rhine	44
Fresno,_California	28	Scottish_Parliament	39
Packet_switching	23	Islamism	39
Black_Death	23	Imperialism	39
Geology	25	Warsaw	49
Pharmacy	26	French_and_Indian_War	46
Force	44

评估语料库由 1204 对需要排名的查询/上下文组成。

首先，我们计算了查询和上下文语言相同（法语/法语）情况下的评估分数。

模型（法语/法语）	平均排名	排名标准差	排名第一的比例（%）	排名前十的比例（%）	排名前一百的比例（%）	平均倒数排名（x100）	排名第一的平均分数	排名第一的分数标准差
BM25	14.47	92.19	69.77	92.03	98.09	77.74	NA	NA
CamemBERT	5.72	36.88	69.35	95.51	98.92	79.51	0.83	0.37
DistilCamemBERT	5.54	25.90	66.11	92.77	99.17	76.00	0.80	0.39
mMiniLMv2-L12	4.43	30.27	71.51	95.68	99.42	80.17	0.78	0.38
RoBERTa (multilingual)	15.13	60.39	57.23	83.87	96.18	66.21	0.53	0.11
cmarkea/bloomz-560m-reranking	1.49	2.58	83.55	99.17	100	89.98	0.93	0.15
cmarkea/bloomz-3b-reranking	1.22	1.06	89.37	99.75	100	93.79	0.94	0.10

然后，我们在跨语言环境中评估了模型，查询为法语，上下文为英语。

模型（法语/英语）	平均排名	排名标准差	排名第一的比例（%）	排名前十的比例（%）	排名前一百的比例（%）	平均倒数排名（x100）	排名第一的平均分数	排名第一的分数标准差
BM25	288.04	371.46	21.93	41.93	55.15	28.41	NA	NA
CamemBERT	12.20	61.39	59.55	89.71	97.42	70.38	0.65	0.47
DistilCamemBERT	40.97	104.78	25.66	64.78	88.62	38.83	0.53	0.49
mMiniLMv2-L12	6.91	32.16	59.88	89.95	99.09	70.39	0.61	0.46
RoBERTa (multilingual)	79.32	153.62	27.91	49.50	78.16	35.41	0.40	0.12
cmarkea/bloomz-560m-reranking	1.51	1.92	81.89	99.09	100	88.64	0.92	0.15
cmarkea/bloomz-3b-reranking	1.22	0.98	89.20	99.84	100	93.63	0.94	0.10

可以观察到，跨语言环境对我们模型的性能影响不大。如果在重排序和过滤搜索的前 K 个结果的场景中使用该模型，可以应用 0.8 的阈值来过滤检索器输出的上下文，从而减少 RAG 类型应用中上下文中存在的噪声问题。

💻 使用示例

基础用法

以下示例基于 Transformers 库的 API 管道。

from transformers import pipeline

reranker = pipeline(
    task='text-classification',
    model='cmarkea/bloomz-3b-reranking',
    top_k=None
)

query: str
contexts: List[str]

similarities = reranker(
    [
        dict(
            text=context, # the model was trained with context in `text`
            text_pair=query # and query in `text_pair` argument.
        )
        for context in contexts
    ]
)

score_label_1 = [
    next(item['score'] for item in entry if item['label'] == 'LABEL_1') 
    for entry in similarities
]
contexts_reranked = sorted(
    zip(score_label_1, contexts),
    key=lambda x: x[0],
    reverse=True
)

score, contexts_cleaned = zip(
    *filter(
        lambda x: x[0] >= 0.8,
        contexts_reranked
    )
)

📄 许可证

本项目使用的许可证为 bigscience-bloom-rail-1.0。

📖 引用

@online{DeBloomzReranking,
  AUTHOR = {Cyrile Delestre},
  ORGANIZATION = {Cr{\'e}dit Mutuel Ark{\'e}a},
  URL = {https://huggingface.co/cmarkea/bloomz-3b-reranking},
  YEAR = {2024},
  KEYWORDS = {NLP ; Transformers ; LLM ; Bloomz},
}