D

Dense Encoder Msmarco Distilbert Word2vec256k MLM 785k Emb Updated

由 vocab-transformers 开发
基于word2vec初始化词汇表的DistilBERT模型,专为句子相似度任务优化,在MS MARCO数据集上训练
下载量 33
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

该模型使用word2vec初始化的256k词汇表,经过785k步MLM预训练,并在MS MARCO数据集上使用MarginMSELoss进行微调,适用于句子嵌入和语义搜索任务

模型特点

大规模词汇表
使用word2vec初始化的256k词汇表,覆盖更广的语义范围
高效训练
基于DistilBERT架构,在保持性能的同时减少计算资源需求
优化损失函数
使用MarginMSELoss进行训练,优化句子相似度任务表现

模型能力

句子嵌入生成
语义相似度计算
文本聚类
信息检索

使用案例

信息检索
文档搜索
将查询和文档转换为向量进行相似度匹配
在MS MARCO开发集上MRR@10达到35.20
问答系统
问题匹配
识别语义相似的问题对
在TREC-DL 2019/2020上nDCG@10分别达到67.61和69.62