D

Dense Encoder Msmarco Distilbert Word2vec256k MLM 445k Emb Updated

由 vocab-transformers 开发
基于MS MARCO数据集训练的句子嵌入模型,使用word2vec初始化的256k词汇表和DistilBERT架构,适用于语义搜索和句子相似度任务
下载量 29
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

该模型是一个句子嵌入模型,能够将句子和段落映射到768维稠密向量空间,适用于聚类、语义搜索等自然语言处理任务。

模型特点

word2vec初始化词汇表
使用word2vec初始化的256k大小词汇表,增强了词嵌入质量
MS MARCO数据集训练
在MS MARCO数据集上使用MarginMSELoss进行训练,优化了语义搜索能力
高性能句子嵌入
在TREC-DL 2019和2020上分别达到66.72和69.14的nDCG@10分数

模型能力

句子嵌入
语义搜索
文本聚类
信息检索

使用案例

信息检索
文档检索系统
构建高效的文档检索系统,根据查询语义匹配相关文档
在MS MARCO开发集上达到34.94的MRR@10
问答系统
问题匹配
在问答系统中匹配相似问题