ruri-v3-130m开源日语文本嵌入模型 - 超长序列支持，达先进性能

首页

Ruri V3 130m

由 cl-nagoya 开发

Ruri v3 是一款基于 ModernBERT-Ja 构建的日语通用文本嵌入模型，在日语文本嵌入任务中达到最先进的性能，支持长达8192个标记的序列。

文本嵌入

Safetensors

日语开源协议:Apache-2.0 #日语文本嵌入 #长序列支持 #高精度检索

下载量 597

发布时间 : 4/9/2025

模型简介

Ruri v3 是一款高性能的日语文本嵌入模型，专为日语文本相似度计算、检索、分类等任务设计。

模型特点

超长序列支持

支持长达8192个标记的序列，相比前代版本（512个标记）有显著提升

扩展词汇量

词汇量扩展至10万标记，相比前代版本（3.2万）显著提升，使输入序列更短，提高效率

高性能架构

集成FlashAttention，采用ModernBERT架构，支持更快的推理和微调

简化分词

仅使用SentencePiece进行分词，无需外部分词工具

模型能力

日语文本嵌入

句子相似度计算

文本检索

文本分类

文本聚类

语义分析

使用案例

信息检索

文档检索

使用模型嵌入文档和查询，实现高效的语义检索

在JMTEB检索任务中获得81.89的高分

文本分析

句子相似度计算

计算两个日语句子的语义相似度

在JMTEB STS任务中获得79.25分

文本分类

对日语文本进行分类

在JMTEB分类任务中获得77.16分

🚀 瑠璃（Ruri）：日语通用文本嵌入模型

瑠璃（Ruri）v3 是一个基于 ModernBERT-Ja 构建的通用日语文本嵌入模型。它能够将日语文本转换为向量表示，在语义搜索、文本分类、聚类等自然语言处理任务中发挥重要作用。

🚀 快速开始

你可以使用 transformers 库（版本 4.48.0 或更高）直接使用我们的模型。

pip install -U "transformers>=4.48.0" sentence-transformers

此外，如果你的 GPU 支持 Flash Attention 2，我们建议结合使用它来提升性能。

pip install flash-attn --no-build-isolation

然后，你可以加载模型并进行推理。

import torch
import torch.nn.functional as F
from sentence_transformers import SentenceTransformer

# 从 🤗 Hub 下载模型
device = "cuda" if torch.cuda.is_available() else "cpu"
model = SentenceTransformer("cl-nagoya/ruri-v3-130m", device=device)

# 瑠璃（Ruri）v3 采用 1+3 前缀方案来区分不同类型的文本输入：
# ""（空字符串）用于编码语义含义。
# "トピック: " 用于分类、聚类和编码主题信息。
# "検索クエリ: " 用于检索任务中的查询。
# "検索文書: " 用于待检索的文档。
sentences = [
    "川べりでサーフボードを持った人たちがいます",
    "サーファーたちが川べりに立っています",
    "トピック: 瑠璃色のサーファー",
    "検索クエリ: 瑠璃色はどんな色？",
    "検索文書: 瑠璃色（るりいろ）は、紫みを帯びた濃い青。名は、半貴石の瑠璃（ラピスラズリ、英: lapis lazuli）による。JIS慣用色名では「こい紫みの青」（略号 dp-pB）と定義している[1][2]。",
]

embeddings = model.encode(sentences, convert_to_tensor=True)
print(embeddings.size())
# [5, 512]

similarities = F.cosine_similarity(embeddings.unsqueeze(0), embeddings.unsqueeze(1), dim=2)
print(similarities)
# [[1.0000, 0.9564, 0.8183, 0.7000, 0.7108],
#  [0.9564, 1.0000, 0.8112, 0.6994, 0.7117],
#  [0.8183, 0.8112, 1.0000, 0.8788, 0.8514],
#  [0.7000, 0.6994, 0.8788, 1.0000, 0.9448],
#  [0.7108, 0.7117, 0.8514, 0.9448, 1.0000]]

✨ 主要特性

瑠璃（Ruri）v3 在日语文本嵌入任务中具有多个关键技术优势：

最先进的性能：在日语文本嵌入任务中表现出色。
支持长达 8192 个标记的序列长度：相比之下，之前版本的瑠璃（v1、v2）仅限于 512 个标记。
扩展到 100K 标记的词汇表：而 v1 和 v2 只有 32K。更大的词汇表使输入序列更短，提高了效率。
集成 FlashAttention：遵循 ModernBERT 的架构，实现了更快的推理和微调。
仅基于 SentencePiece 的分词器：与之前依赖特定于日语的 BERT 分词器且需要预分词输入的版本不同，瑠璃（Ruri）v3 仅使用 SentencePiece 进行分词，无需外部分词工具。

📦 安装指南

你可以使用 transformers 库（版本 4.48.0 或更高）直接使用我们的模型。

pip install -U "transformers>=4.48.0" sentence-transformers

此外，如果你的 GPU 支持 Flash Attention 2，我们建议结合使用它来提升性能。

pip install flash-attn --no-build-isolation

💻 使用示例

基础用法

import torch
import torch.nn.functional as F
from sentence_transformers import SentenceTransformer

# 从 🤗 Hub 下载模型
device = "cuda" if torch.cuda.is_available() else "cpu"
model = SentenceTransformer("cl-nagoya/ruri-v3-130m", device=device)

# 瑠璃（Ruri）v3 采用 1+3 前缀方案来区分不同类型的文本输入：
# ""（空字符串）用于编码语义含义。
# "トピック: " 用于分类、聚类和编码主题信息。
# "検索クエリ: " 用于检索任务中的查询。
# "検索文書: " 用于待检索的文档。
sentences = [
    "川べりでサーフボードを持った人たちがいます",
    "サーファーたちが川べりに立っています",
    "トピック: 瑠璃色のサーファー",
    "検索クエリ: 瑠璃色はどんな色？",
    "検索文書: 瑠璃色（るりいろ）は、紫みを帯びた濃い青。名は、半貴石の瑠璃（ラピスラズリ、英: lapis lazuli）による。JIS慣用色名では「こい紫みの青」（略号 dp-pB）と定義している[1][2]。",
]

embeddings = model.encode(sentences, convert_to_tensor=True)
print(embeddings.size())
# [5, 512]

similarities = F.cosine_similarity(embeddings.unsqueeze(0), embeddings.unsqueeze(1), dim=2)
print(similarities)
# [[1.0000, 0.9564, 0.8183, 0.7000, 0.7108],
#  [0.9564, 1.0000, 0.8112, 0.6994, 0.7117],
#  [0.8183, 0.8112, 1.0000, 0.8788, 0.8514],
#  [0.7000, 0.6994, 0.8788, 1.0000, 0.9448],
#  [0.7108, 0.7117, 0.8514, 0.9448, 1.0000]]

📚 详细文档

模型系列

我们提供了多种不同大小的瑠璃（Ruri）-v3 模型。以下是每个模型的概要：

模型 ID	参数数量	不含嵌入层的参数数量	维度	层数	平均 JMTEB 得分
cl-nagoya/ruri-v3-30m	37M	10M	256	10	74.51
cl-nagoya/ruri-v3-70m	70M	31M	384	13	75.48
cl-nagoya/ruri-v3-130m	132M	80M	512	19	76.55
cl-nagoya/ruri-v3-310m	315M	236M	768	25	77.24

基准测试

JMTEB

使用 JMTEB 进行评估。

模型	参数数量	平均分	检索	STS	分类	重排序	聚类	成对分类
Ruri-v3-30m	37M	74.51	78.08	82.48	74.80	93.00	52.12	62.40
Ruri-v3-70m	70M	75.48	79.96	79.82	76.97	93.27	52.70	61.75
Ruri-v3-130m (本模型)	132M	76.55	81.89	79.25	77.16	93.31	55.36	62.26
Ruri-v3-310m	315M	77.24	81.89	81.22	78.66	93.43	55.69	62.60
sbintuitions/sarashina-embedding-v1-1b	1.22B	75.50	77.61	82.71	78.37	93.74	53.86	62.00
PLaMo-Embedding-1B	1.05B	76.10	79.94	83.14	77.20	93.57	53.47	62.37
OpenAI/text-embedding-ada-002	-	69.48	64.38	79.02	69.75	93.04	48.30	62.40
OpenAI/text-embedding-3-small	-	70.86	66.39	79.46	73.06	92.92	51.06	62.27
OpenAI/text-embedding-3-large	-	73.97	74.48	82.52	77.58	93.58	53.32	62.35
pkshatech/GLuCoSE-base-ja	133M	70.44	59.02	78.71	76.82	91.90	49.78	66.39
pkshatech/GLuCoSE-base-ja-v2	133M	72.23	73.36	82.96	74.21	93.01	48.65	62.37
retrieva-jp/amber-base	130M	72.12	73.40	77.81	76.14	93.27	48.05	64.03
retrieva-jp/amber-large	315M	73.22	75.40	79.32	77.14	93.54	48.73	60.97
sentence-transformers/LaBSE	472M	64.70	40.12	76.56	72.66	91.63	44.88	62.33
intfloat/multilingual-e5-small	118M	69.52	67.27	80.07	67.62	93.03	46.91	62.19
intfloat/multilingual-e5-base	278M	70.12	68.21	79.84	69.30	92.85	48.26	62.26
intfloat/multilingual-e5-large	560M	71.65	70.98	79.70	72.89	92.96	51.24	62.15
Ruri-Small	68M	71.53	69.41	82.79	76.22	93.00	51.19	62.11
Ruri-Small v2	68M	73.30	73.94	82.91	76.17	93.20	51.58	62.32
Ruri-Base	111M	71.91	69.82	82.87	75.58	92.91	54.16	62.38
Ruri-Base v2	111M	72.48	72.33	83.03	75.34	93.17	51.38	62.35
Ruri-Large	337M	73.31	73.02	83.13	77.43	92.99	51.82	62.29
Ruri-Large v2	337M	74.55	76.34	83.17	77.18	93.21	52.14	62.27

模型详情

模型描述

属性	详情
模型类型	句子转换器
基础模型	cl-nagoya/ruri-v3-pt-130m
最大序列长度	8192 个标记
输出维度	512
相似度函数	余弦相似度
语言	日语
许可证	Apache 2.0
论文	https://arxiv.org/abs/2409.07737

完整模型架构

SentenceTransformer(
  (0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: ModernBertModel 
  (1): Pooling({'word_embedding_dimension': 512, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)

🔧 技术细节

瑠璃（Ruri）v3 是一个基于 ModernBERT-Ja 构建的通用日语文本嵌入模型。它在日语文本嵌入任务中具有多个关键技术优势，包括支持长达 8192 个标记的序列长度、扩展到 100K 标记的词汇表、集成 FlashAttention 以及仅基于 SentencePiece 的分词器。这些技术改进使得瑠璃（Ruri）v3 在性能和效率上都有显著提升。

📄 许可证

本模型根据 Apache 许可证 2.0 版发布。

引用

@misc{
  Ruri,
  title={{Ruri: Japanese General Text Embeddings}}, 
  author={Hayato Tsukagoshi and Ryohei Sasano},
  year={2024},
  eprint={2409.07737},
  archivePrefix={arXiv},
  primaryClass={cs.CL},
  url={https://arxiv.org/abs/2409.07737}, 
}