D

Dense Encoder Msmarco Distilbert Word2vec256k Emb Updated

由 vocab-transformers 开发
基于DistilBERT架构的句子嵌入模型,使用256k词表和word2vec初始化,在MS MARCO数据集上训练,适用于句子相似度计算和语义搜索任务。
下载量 31
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

该模型是一个句子嵌入模型,可将文本转换为768维稠密向量,主要用于句子相似度计算、语义搜索和信息检索等任务。

模型特点

word2vec初始化
使用256k大小的词表并通过word2vec进行初始化,提升了词嵌入质量
高效架构
基于DistilBERT架构,在保持性能的同时减少了模型大小
专业训练
在MS MARCO数据集上使用MarginMSELoss进行专门训练,优化了检索任务表现

模型能力

句子嵌入生成
语义相似度计算
信息检索
文本聚类

使用案例

信息检索
文档检索系统
构建基于语义相似度的文档检索系统
在MS MARCO数据集上MRR@10达到34.51
问答系统
问答匹配
用于问答系统中问题和答案的匹配