S

Sarashina Embedding V1 1b

由 sbintuitions 开发
基于12亿参数日语大语言模型开发的文本嵌入模型,在JMTEB基准测试中表现优异
下载量 23.85k
发布时间 : 11/22/2024

模型简介

更级嵌入模型v1-1B是基于日语大语言模型的文本嵌入模型,能将句子和段落映射到1792维稠密向量空间,适用于语义文本相似度计算、语义搜索等多种场景

模型特点

高维稠密向量
输出1792维稠密向量,能更精细地捕捉语义信息
长文本支持
最大支持8192个token的长文本处理
多阶段训练
通过弱监督学习和监督微调两阶段训练,提升模型性能
日语优化
专门针对日语文本进行优化,在JMTEB基准测试中表现优异

模型能力

语义文本相似度计算
语义搜索
复述挖掘
文本分类
聚类分析

使用案例

信息检索
文档检索
根据查询语义快速检索相关文档
在JMTEB检索任务中得分77.61
文本分析
文本相似度计算
计算两段文本的语义相似度
在JMTEB语义相似度任务中得分82.71
文本聚类
将语义相似的文本自动分组
在JMTEB聚类任务中得分53.86
AIbase
智启未来,您的人工智能解决方案智库
简体中文