V

Vectorizer V1 S Multilingual

由 sinequa 开发
Sinequa开发的多语言向量化器,能够为输入的段落或查询生成嵌入向量,用于相似度计算和信息检索。
下载量 322
发布时间 : 7/10/2023
模型介绍
内容详情
替代品

模型简介

该模型是基于BERT-Small架构的多语言特征提取器,主要用于句子相似度计算和信息检索任务,支持英语、法语、德语和西班牙语四种语言。

模型特点

多语言支持
支持英语、法语、德语和西班牙语四种语言的文本处理
高效推理
在不同GPU上均表现出高效的推理速度,FP16量化下批处理32个样本仅需5毫秒
大小写不敏感
对文本的大小写和重音不敏感,提高检索鲁棒性
批内负样本训练
采用查询-段落对和批内负样本的训练方法优化向量表示

模型能力

文本向量化
多语言文本处理
语义相似度计算
信息检索

使用案例

信息检索
文档检索系统
构建基于语义相似度的文档检索系统
在BEIR基准测试中平均Recall@100达到0.448
多语言问答系统
支持多种语言的问答系统后端
在MIRACL基准测试中法语Recall@100达到0.583