A

All Datasets V4 Mpnet Base

由 flax-sentence-embeddings 开发
基于mpnet-base的句子嵌入模型,通过自监督对比学习在10亿句对数据集上训练,可生成高质量的句子语义向量表示
下载量 131
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

该模型是专为句子嵌入设计的编码器,能够将输入句子转换为蕴含语义信息的向量表示,适用于信息检索、文本聚类和句子相似度计算等任务

模型特点

大规模训练数据
在超过10亿句对的多样化数据集上进行训练,涵盖问答、论坛讨论、百科等多种文本类型
对比学习优化
采用自监督对比学习目标,通过预测正例句对来优化句子表示
高性能TPU训练
在7块TPU v3-8上训练,获得Google技术团队支持

模型能力

句子向量化
语义相似度计算
信息检索
文本聚类

使用案例

信息检索
文档搜索
将查询语句和文档转换为向量,实现基于语义的文档检索
文本分析
相似问题识别
在问答系统中识别语义相似的问题