mmarco-mMiniLMv2-L12-H384-v1开源多语言文本排序模型

首页

Mmarco Mminilmv2 L12 H384 V1

由 cross-encoder 开发

基于MMARCO数据集训练的多语言文本排序模型，支持14种语言的信息检索任务

文本嵌入

Transformers

支持多种语言开源协议:Apache-2.0 #多语言检索 #信息重排序 #跨语言语义匹配

下载量 42.56k

发布时间 : 6/1/2022

模型简介

该模型是一个多语言交叉编码器，专为信息检索场景设计。给定查询时，可以对所有可能段落进行编码并按得分排序，适用于多语言搜索引擎的重新排序任务。

模型特点

多语言支持

支持14种语言的文本排序任务，在MMARCO数据集上表现优异

高效架构

基于MiniLMv2的轻量级架构，12层Transformer和384维隐藏层

信息检索优化

专为搜索引擎的查询-段落相关性评分任务设计

模型能力

多语言文本排序

查询-段落相关性评分

信息检索结果重排序

使用案例

搜索引擎

多语言搜索结果重排序

对ElasticSearch等检索系统返回的结果进行相关性重排序

提升搜索结果的相关性和准确性

问答系统

候选答案排序

对问答系统生成的多个候选答案进行相关性排序

帮助系统选择最相关的答案

🚀 多语言MS Marco交叉编码器

本模型用于解决多语言信息检索中的排序问题，通过在多语言数据集上训练，能够对不同语言的查询和段落进行相关性打分，在多语言信息检索场景中具有重要价值。

🚀 快速开始

本模型基于 MMARCO 数据集进行训练。这是一个使用谷歌翻译对MS MARCO进行机器翻译后的版本，被翻译成了14种语言。在实验中发现，该模型在其他语言上也表现良好。

基础模型采用了多语言MiniLMv2 模型。

该模型可用于信息检索：给定一个查询，将查询与所有可能的段落（例如通过ElasticSearch检索得到的段落）进行编码，然后按降序对段落进行排序。更多详细信息请参阅 SBERT.net 检索与重排序。训练代码可在 SBERT.net 训练MS Marco 中找到。

💻 使用示例

基础用法（使用SentenceTransformers）

当你安装了 SentenceTransformers 后，使用起来会很方便。你可以像这样使用预训练模型：

from sentence_transformers import CrossEncoder
model = CrossEncoder('model_name')
scores = model.predict([('Query', 'Paragraph1'), ('Query', 'Paragraph2') , ('Query', 'Paragraph3')])

高级用法（使用Transformers）

from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch

model = AutoModelForSequenceClassification.from_pretrained('model_name')
tokenizer = AutoTokenizer.from_pretrained('model_name')

features = tokenizer(['How many people live in Berlin?', 'How many people live in Berlin?'], ['Berlin has a population of 3,520,031 registered inhabitants in an area of 891.82 square kilometers.', 'New York City is famous for the Metropolitan Museum of Art.'],  padding=True, truncation=True, return_tensors="pt")

model.eval()
with torch.no_grad():
    scores = model(**features).logits
    print(scores)

📄 许可证

本项目采用Apache-2.0许可证。

📋 模型信息

属性	详情
支持语言	英语、阿拉伯语、中文、荷兰语、法语、德语、印地语、印尼语、意大利语、日语、葡萄牙语、俄语、西班牙语、越南语、多语言
训练数据集	unicamp-dl/mmarco
基础模型	nreimers/mMiniLMv2-L12-H384-distilled-from-XLMR-Large
任务类型	文本排序
库名称	sentence-transformers
标签	transformers