B

Bert Base 1024 Biencoder 6M Pairs

由 shreyansh26 开发
基于MosaicML预训练的1024序列长度BERT的长上下文双编码器,用于生成句子和段落的768维密集向量表示
下载量 24
发布时间 : 8/17/2023
模型介绍
内容详情
替代品

模型简介

该模型将句子和段落映射到768维密集向量空间,可用于聚类或语义搜索等任务。支持1024的序列长度,基于6.4M句子/段落对训练。

模型特点

长上下文支持
支持1024的序列长度,适合处理长文本
高效双编码器
采用双编码器架构,可高效生成句子和段落的向量表示
大规模训练数据
基于6.4M随机采样的句子/段落对训练

模型能力

句子向量化
段落向量化
语义相似度计算
文本聚类
语义搜索

使用案例

信息检索
文档检索
使用向量相似度进行文档检索
在多个检索基准测试中表现良好
问答系统
用于问答系统中的段落检索
文本分析
文本聚类
基于语义相似度的文本聚类