T

Text2vec Base Chinese Paraphrase

由 shibing624 开发
基于CoSENT方法训练的中文文本向量化模型,支持句子嵌入、文本匹配和语义搜索等任务
下载量 45.88k
发布时间 : 6/19/2023
模型介绍
内容详情
替代品

模型简介

该模型将中文句子映射到768维稠密向量空间,可用于句子嵌入、文本匹配或语义搜索等任务。基于nghuyong/ernie-3.0-base-zh模型,使用增强版中文STS数据集训练,在中文各NLI测试集达到SOTA。

模型特点

增强版中文STS数据集训练
使用包含s2p(句子对段落)数据的增强版中文STS数据集训练,强化了长文本表征能力
SOTA性能
在中文各NLI测试集上达到当前最优性能,平均斯皮尔曼相关系数达63.08
高效推理
支持3066 QPS的推理速度,适合生产环境部署

模型能力

文本向量化
句子相似度计算
语义搜索
文本匹配
特征提取

使用案例

信息检索
语义搜索
将查询和文档转换为向量后计算相似度,实现基于语义而非关键词的搜索
提升搜索结果的相关性
智能客服
问题匹配
计算用户问题与知识库问题的相似度,实现自动问答
提高客服系统准确率
文本聚类
文档归类
将相似文档通过向量距离聚类
实现无监督的文档分类