R

Ruri V3 30m

由 cl-nagoya 开发
Ruri v3是基于ModernBERT-Ja构建的日语通用文本嵌入模型,支持长达8192个标记的序列处理,具备日语文本嵌入任务的顶尖性能。
下载量 1,135
发布时间 : 4/7/2025
模型介绍
内容详情
替代品

模型简介

Ruri v3是一款日语通用文本嵌入模型,主要用于句子相似度计算和特征提取,支持多种文本类型编码。

模型特点

长序列处理
支持长达8192个标记的序列处理,相比前代版本(512标记)有显著提升。
扩展词汇表
10万标记的扩展词汇表(前代为3.2万),可缩短输入序列,提升效率。
FlashAttention技术
集成FlashAttention技术,实现更快的推理和微调速度。
纯SentencePiece分词器
无需外部分词工具,仅需SentencePiece即可完成分词。

模型能力

日语文本嵌入
句子相似度计算
特征提取
长文本处理

使用案例

文本检索
文档检索
使用'検索文ド'前缀编码待检索文档,实现高效文档检索。
查询检索
使用'検索クエリ'前缀编码查询语句,提高检索准确性。
文本分类
主题分类
使用'トピック'前缀编码文本,实现主题分类和聚类。