R

Ruri Small

由 cl-nagoya 开发
Ruri是一个专注于日语文本嵌入的模型,能够高效计算句子相似度和提取文本特征。
下载量 11.75k
发布时间 : 8/28/2024
模型介绍
内容详情
替代品

模型简介

该模型是一个日语通用文本嵌入模型,主要用于句子相似度计算和特征提取。基于DistilBert架构,支持512个标记的最大序列长度,输出维度为768。

模型特点

高效日语处理
专门针对日语文本优化,能准确理解日语语义特征
高性能
在JMTEB评估中表现优异,超越同类模型
轻量化
仅68M参数的小型模型,适合资源有限的环境
长文本支持
支持最大512个标记的序列长度

模型能力

日语文本特征提取
句子相似度计算
语义搜索
文本聚类

使用案例

信息检索
语义搜索
根据查询语义查找相关文档
在JMTEB检索任务中获得69.41分
文本分析
文本聚类
将语义相似的文本分组
在JMTEB聚类任务中获得51.19分