R

Ruri V3 130m

由 cl-nagoya 开发
Ruri v3 是一款基于 ModernBERT-Ja 构建的日语通用文本嵌入模型,在日语文本嵌入任务中达到最先进的性能,支持长达8192个标记的序列。
下载量 597
发布时间 : 4/9/2025
模型介绍
内容详情
替代品

模型简介

Ruri v3 是一款高性能的日语文本嵌入模型,专为日语文本相似度计算、检索、分类等任务设计。

模型特点

超长序列支持
支持长达8192个标记的序列,相比前代版本(512个标记)有显著提升
扩展词汇量
词汇量扩展至10万标记,相比前代版本(3.2万)显著提升,使输入序列更短,提高效率
高性能架构
集成FlashAttention,采用ModernBERT架构,支持更快的推理和微调
简化分词
仅使用SentencePiece进行分词,无需外部分词工具

模型能力

日语文本嵌入
句子相似度计算
文本检索
文本分类
文本聚类
语义分析

使用案例

信息检索
文档检索
使用模型嵌入文档和查询,实现高效的语义检索
在JMTEB检索任务中获得81.89的高分
文本分析
句子相似度计算
计算两个日语句子的语义相似度
在JMTEB STS任务中获得79.25分
文本分类
对日语文本进行分类
在JMTEB分类任务中获得77.16分