T

Text2vec Base Multilingual

由 shibing624 开发
一个多语言的句子嵌入模型,支持中文、英文、德文、法文等多种语言,专注于句子相似度计算和特征提取任务。
下载量 128.13k
发布时间 : 6/22/2023
模型介绍
内容详情
替代品

模型简介

该模型基于Sentence-Transformers框架,通过多语言自然语言推理数据集训练,能够将文本转换为高质量的向量表示,适用于跨语言的语义相似度计算和信息检索等任务。

模型特点

多语言支持
支持中文、英文、德文、法文等多种语言的文本嵌入
高性能句子相似度计算
在多个基准测试中表现出色,能够准确计算句子间的语义相似度
预训练模型
基于大规模多语言数据集预训练,开箱即用

模型能力

句子相似度计算
文本特征提取
跨语言语义检索
文本分类
聚类分析

使用案例

信息检索
跨语言文档检索
使用统一的向量空间实现不同语言文档的相似度检索
文本分类
多语言情感分析
基于句子嵌入实现多语言文本的情感分类
在MTEB EmotionClassification上达到43.35%准确率
聚类分析
学术论文聚类
对arXiv论文进行主题聚类
在MTEB ArxivClusteringP2P上达到32.32 v_measure分数