A

All Datasets V3 Roberta Large

由 flax-sentence-embeddings 开发
基于RoBERTa-large的句子嵌入模型,通过自监督对比学习在10亿句对数据集上训练,用于生成语义丰富的句子向量表示
下载量 987
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

该模型是一个句子编码器,能够将输入句子转换为蕴含语义信息的向量表示,适用于信息检索、文本聚类和句子相似度计算等任务

模型特点

大规模对比学习训练
在超过10亿句对的超大规模数据集上进行对比学习训练,优化句子表示能力
多源数据整合
整合了来自23个不同来源的数据集,涵盖问答、搜索、学术引用等多种文本类型
高效硬件优化
使用7块TPU v3-8芯片训练,获得Google团队在JAX/Flax框架上的优化支持

模型能力

句子向量化
语义相似度计算
信息检索
文本聚类

使用案例

信息检索
文档搜索
将查询语句和文档转换为向量,实现基于语义的文档检索
文本分析
句子相似度计算
计算两个句子之间的语义相似度分数
文本聚类
将相似语义的文本自动分组