语言:
- 多语言
- 南非荷兰语
- 阿尔巴尼亚语
- 阿拉伯语
- 阿拉贡语
- 亚美尼亚语
- 阿斯图里亚斯语
- 阿塞拜疆语
- 巴什基尔语
- 巴斯克语
- 巴伐利亚语
- 白俄罗斯语
- 孟加拉语
- 印度语系
- 波斯尼亚语
- 布列塔尼语
- 保加利亚语
- 缅甸语
- 加泰罗尼亚语
- 宿务语
- 车臣语
- 中文
- 楚瓦什语
- 克罗地亚语
- 捷克语
- 丹麦语
- 荷兰语
- 英语
- 爱沙尼亚语
- 芬兰语
- 法语
- 加利西亚语
- 格鲁吉亚语
- 德语
- 希腊语
- 古吉拉特语
- 海地克里奥尔语
- 希伯来语
- 印地语
- 匈牙利语
- 冰岛语
- 伊多语
- 印尼语
- 爱尔兰语
- 意大利语
- 日语
- 爪哇语
- 卡纳达语
- 哈萨克语
- 吉尔吉斯语
- 韩语
- 拉丁语
- 拉脱维亚语
- 立陶宛语
- 罗曼语族
- 低地德语
- 伦巴第语
- 马其顿语
- 马尔加什语
- 马来语
- 马拉雅拉姆语
- 马拉地语
- 米南卡保语
- 尼泊尔语
- 尼瓦尔语
- 挪威书面语
- 新挪威语
- 奥克语
- 波斯语
- 皮埃蒙特语
- 波兰语
- 葡萄牙语
- 旁遮普语
- 罗马尼亚语
- 俄语
- 苏格兰语
- 塞尔维亚语
- 克罗地亚语
- 西西里语
- 斯洛伐克语
- 斯洛文尼亚语
- 阿塞拜疆语
- 西班牙语
- 巽他语
- 斯瓦希里语
- 瑞典语
- 他加禄语
- 塔吉克语
- 泰米尔语
- 鞑靼语
- 泰卢固语
- 土耳其语
- 乌克兰语
- 乌迪语
- 乌兹别克语
- 越南语
- 沃拉普克语
- 瓦瑞语
- 威尔士语
- 西弗里斯兰语
- 西旁遮普语
- 约鲁巴语
缩略图: https://amberoad.de/images/logo_text.png
标签:
- msmarco
- 多语言
- 段落重排序
许可证: apache-2.0
数据集:
- msmarco
指标:
- MRR
小部件:
- 查询: 什么是公司?
段落: 公司在特定国家注册,通常在该国较小的子集范围内,如州或省。然后,公司受该州注册法律的管辖。公司可以发行股票,可以是私有的或公开的,也可以被归类为非股票公司。如果发行股票,公司通常由其股东直接或间接管理。
多语言BERT段落重排序模型 🔃 🌍
模型描述
输入: 支持超过100种语言。查看支持的语言列表获取所有可用语言。
用途: 该模块接收搜索查询[1]和段落[2],并计算段落是否匹配查询。
可用作Elasticsearch结果的改进,将相关性提升高达100%。
架构: 在BERT之上有一个密集连接的神经网络,它以768维的[CLS]标记作为输入并提供输出(Arxiv)。
输出: 仅为一个介于-10和10之间的单一值。匹配更好的查询和段落对往往有更高的分数。
预期用途与限制
查询[1]和段落[2]都必须适合512个标记。
通常您希望重新排序前几十个搜索结果时,请记住大约300毫秒/查询的推理时间。
使用方法
from transformers import AutoTokenizer, AutoModelForSequenceClassification
tokenizer = AutoTokenizer.from_pretrained("amberoad/bert-multilingual-passage-reranking-msmarco")
model = AutoModelForSequenceClassification.from_pretrained("amberoad/bert-multilingual-passage-reranking-msmarco")
该模型可作为NBoost库中的直接替代品使用。
通过这种方式,您可以直接改进Elasticsearch结果而无需任何编码。
训练数据
该模型使用Microsoft MS Marco数据集进行训练。该训练数据集包含约4亿个查询、相关和非相关段落的元组。用于训练和评估的所有数据集列在此表格中。用于训练的数据集称为Train Triples Large,而评估则在Top 1000 Dev上进行。开发数据集中共有6,900个查询,每个查询映射到使用BM25从MS MARCO语料库中检索的前1,000个段落。
训练过程
训练方式与此README中所述相同。参见他们在Arxiv上的优秀论文。
我们将BERT模型从仅英语更改为Google的默认多语言未区分大小写BERT模型。
训练进行了40万步。这在TPU V3-8上耗时12小时。
评估结果
在英语Bing查询数据集中,我们看到与仅英语模型几乎相似的性能。尽管训练数据仅为英语,但在私人数据上的内部测试显示,在德语中的准确性远高于所有其他可用模型。
微调模型 |
依赖 |
评估集 |
搜索提升 |
GPU速度 |
amberoad/Multilingual-uncased-MSMARCO (本模型) |
 |
bing查询 |
+61% (0.29 vs 0.18) |
~300 毫秒/查询 |
nboost/pt-tinybert-msmarco |
 |
bing查询 |
+45% (0.26 vs 0.18) |
~50毫秒/查询 |
nboost/pt-bert-base-uncased-msmarco |
 |
bing查询 |
+62% (0.29 vs 0.18) |
~300 毫秒/查询 |
nboost/pt-bert-large-msmarco |
 |
bing查询 |
+77% (0.32 vs 0.18) |
- |
nboost/pt-biobert-base-msmarco |
 |
生物医学 |
+66% (0.17 vs 0.10) |
~300 毫秒/查询 |
此表取自nboost并扩展了第一行。
联系信息

Amberoad是一家专注于搜索和商业智能的公司。
我们为您提供:
- 通过NLP提供高级内部公司搜索引擎
- 外部搜索引擎: 查找竞争对手、客户、供应商
立即联系我们以受益于我们的专业知识:
训练和评估由Philipp Reissel和Igli Manaj执行。
LinkedIn | 主页 | 电子邮件