S

Sarashina Embedding V1 1b

由 sbintuitions 开发
基于12亿参数日语大语言模型开发的文本嵌入模型,在JMTEB基准测试中表现优异
下载量 23.85k
发布时间 : 11/22/2024
模型介绍
内容详情
替代品

模型简介

更级嵌入模型v1-1B是基于日语大语言模型的文本嵌入模型,能将句子和段落映射到1792维稠密向量空间,适用于语义文本相似度计算、语义搜索等多种场景

模型特点

高维稠密向量
输出1792维稠密向量,能更精细地捕捉语义信息
长文本支持
最大支持8192个token的长文本处理
多阶段训练
通过弱监督学习和监督微调两阶段训练,提升模型性能
日语优化
专门针对日语文本进行优化,在JMTEB基准测试中表现优异

模型能力

语义文本相似度计算
语义搜索
复述挖掘
文本分类
聚类分析

使用案例

信息检索
文档检索
根据查询语义快速检索相关文档
在JMTEB检索任务中得分77.61
文本分析
文本相似度计算
计算两段文本的语义相似度
在JMTEB语义相似度任务中得分82.71
文本聚类
将语义相似的文本自动分组
在JMTEB聚类任务中得分53.86