trans-encoder-bi-simcse-roberta-large开源模型 - 免费部署助力句子相似度计算

Trans Encoder Bi Simcse Roberta Large

由 cambridgeltl 开发

基于RoBERTa-large的无监督句子编码器，通过自蒸馏和互蒸馏技术训练，适用于句子相似度计算任务。

下载量 17

发布时间 : 3/2/2022

模型简介

该模型是一种双编码器架构的句子嵌入模型，专门用于计算句子之间的语义相似度。它采用无监督训练方式，使用从多个标准数据集采样的句子对进行训练。

无监督训练

使用自蒸馏和互蒸馏技术，无需人工标注数据即可训练

双编码器架构

采用独立的编码器处理输入句子，提高计算效率

基于RoBERTa-large

以强大的预训练语言模型为基础，提供高质量的句子表征

句子嵌入生成

语义相似度计算

无监督学习

信息检索

文档相似性搜索

通过计算句子嵌入相似度来检索相关文档

问答系统

问题匹配

识别用户问题与知识库中问题的语义相似度

属性	详情
模型类型	无监督句子编码器（双塔编码器）
训练数据	从STS2012 - 2016、STS - b和SICK - R中采样的未标记句子对
基础模型	princeton - nlp/unsup - simcse - roberta - large
输入表示	使用`[CLS]`（池化器之前）作为输入的表示