Ruri V3 130m
Ruri v3 是一款基于 ModernBERT-Ja 构建的日语通用文本嵌入模型,在日语文本嵌入任务中达到最先进的性能,支持长达8192个标记的序列。
下载量 597
发布时间 : 4/9/2025
模型简介
Ruri v3 是一款高性能的日语文本嵌入模型,专为日语文本相似度计算、检索、分类等任务设计。
模型特点
超长序列支持
支持长达8192个标记的序列,相比前代版本(512个标记)有显著提升
扩展词汇量
词汇量扩展至10万标记,相比前代版本(3.2万)显著提升,使输入序列更短,提高效率
高性能架构
集成FlashAttention,采用ModernBERT架构,支持更快的推理和微调
简化分词
仅使用SentencePiece进行分词,无需外部分词工具
模型能力
日语文本嵌入
句子相似度计算
文本检索
文本分类
文本聚类
语义分析
使用案例
信息检索
文档检索
使用模型嵌入文档和查询,实现高效的语义检索
在JMTEB检索任务中获得81.89的高分
文本分析
句子相似度计算
计算两个日语句子的语义相似度
在JMTEB STS任务中获得79.25分
文本分类
对日语文本进行分类
在JMTEB分类任务中获得77.16分
🚀 瑠璃(Ruri):日语通用文本嵌入模型
瑠璃(Ruri)v3 是一个基于 ModernBERT-Ja 构建的通用日语文本嵌入模型。它能够将日语文本转换为向量表示,在语义搜索、文本分类、聚类等自然语言处理任务中发挥重要作用。
🚀 快速开始
你可以使用 transformers
库(版本 4.48.0 或更高)直接使用我们的模型。
pip install -U "transformers>=4.48.0" sentence-transformers
此外,如果你的 GPU 支持 Flash Attention 2,我们建议结合使用它来提升性能。
pip install flash-attn --no-build-isolation
然后,你可以加载模型并进行推理。
import torch
import torch.nn.functional as F
from sentence_transformers import SentenceTransformer
# 从 🤗 Hub 下载模型
device = "cuda" if torch.cuda.is_available() else "cpu"
model = SentenceTransformer("cl-nagoya/ruri-v3-130m", device=device)
# 瑠璃(Ruri)v3 采用 1+3 前缀方案来区分不同类型的文本输入:
# ""(空字符串)用于编码语义含义。
# "トピック: " 用于分类、聚类和编码主题信息。
# "検索クエリ: " 用于检索任务中的查询。
# "検索文書: " 用于待检索的文档。
sentences = [
"川べりでサーフボードを持った人たちがいます",
"サーファーたちが川べりに立っています",
"トピック: 瑠璃色のサーファー",
"検索クエリ: 瑠璃色はどんな色?",
"検索文書: 瑠璃色(るりいろ)は、紫みを帯びた濃い青。名は、半貴石の瑠璃(ラピスラズリ、英: lapis lazuli)による。JIS慣用色名では「こい紫みの青」(略号 dp-pB)と定義している[1][2]。",
]
embeddings = model.encode(sentences, convert_to_tensor=True)
print(embeddings.size())
# [5, 512]
similarities = F.cosine_similarity(embeddings.unsqueeze(0), embeddings.unsqueeze(1), dim=2)
print(similarities)
# [[1.0000, 0.9564, 0.8183, 0.7000, 0.7108],
# [0.9564, 1.0000, 0.8112, 0.6994, 0.7117],
# [0.8183, 0.8112, 1.0000, 0.8788, 0.8514],
# [0.7000, 0.6994, 0.8788, 1.0000, 0.9448],
# [0.7108, 0.7117, 0.8514, 0.9448, 1.0000]]
✨ 主要特性
瑠璃(Ruri)v3 在日语文本嵌入任务中具有多个关键技术优势:
- 最先进的性能:在日语文本嵌入任务中表现出色。
- 支持长达 8192 个标记的序列长度:相比之下,之前版本的瑠璃(v1、v2)仅限于 512 个标记。
- 扩展到 100K 标记的词汇表:而 v1 和 v2 只有 32K。更大的词汇表使输入序列更短,提高了效率。
- 集成 FlashAttention:遵循 ModernBERT 的架构,实现了更快的推理和微调。
- 仅基于 SentencePiece 的分词器:与之前依赖特定于日语的 BERT 分词器且需要预分词输入的版本不同,瑠璃(Ruri)v3 仅使用 SentencePiece 进行分词,无需外部分词工具。
📦 安装指南
你可以使用 transformers
库(版本 4.48.0 或更高)直接使用我们的模型。
pip install -U "transformers>=4.48.0" sentence-transformers
此外,如果你的 GPU 支持 Flash Attention 2,我们建议结合使用它来提升性能。
pip install flash-attn --no-build-isolation
💻 使用示例
基础用法
import torch
import torch.nn.functional as F
from sentence_transformers import SentenceTransformer
# 从 🤗 Hub 下载模型
device = "cuda" if torch.cuda.is_available() else "cpu"
model = SentenceTransformer("cl-nagoya/ruri-v3-130m", device=device)
# 瑠璃(Ruri)v3 采用 1+3 前缀方案来区分不同类型的文本输入:
# ""(空字符串)用于编码语义含义。
# "トピック: " 用于分类、聚类和编码主题信息。
# "検索クエリ: " 用于检索任务中的查询。
# "検索文書: " 用于待检索的文档。
sentences = [
"川べりでサーフボードを持った人たちがいます",
"サーファーたちが川べりに立っています",
"トピック: 瑠璃色のサーファー",
"検索クエリ: 瑠璃色はどんな色?",
"検索文書: 瑠璃色(るりいろ)は、紫みを帯びた濃い青。名は、半貴石の瑠璃(ラピスラズリ、英: lapis lazuli)による。JIS慣用色名では「こい紫みの青」(略号 dp-pB)と定義している[1][2]。",
]
embeddings = model.encode(sentences, convert_to_tensor=True)
print(embeddings.size())
# [5, 512]
similarities = F.cosine_similarity(embeddings.unsqueeze(0), embeddings.unsqueeze(1), dim=2)
print(similarities)
# [[1.0000, 0.9564, 0.8183, 0.7000, 0.7108],
# [0.9564, 1.0000, 0.8112, 0.6994, 0.7117],
# [0.8183, 0.8112, 1.0000, 0.8788, 0.8514],
# [0.7000, 0.6994, 0.8788, 1.0000, 0.9448],
# [0.7108, 0.7117, 0.8514, 0.9448, 1.0000]]
📚 详细文档
模型系列
我们提供了多种不同大小的瑠璃(Ruri)-v3 模型。以下是每个模型的概要:
模型 ID | 参数数量 | 不含嵌入层的参数数量 | 维度 | 层数 | 平均 JMTEB 得分 |
---|---|---|---|---|---|
cl-nagoya/ruri-v3-30m | 37M | 10M | 256 | 10 | 74.51 |
cl-nagoya/ruri-v3-70m | 70M | 31M | 384 | 13 | 75.48 |
cl-nagoya/ruri-v3-130m | 132M | 80M | 512 | 19 | 76.55 |
cl-nagoya/ruri-v3-310m | 315M | 236M | 768 | 25 | 77.24 |
基准测试
JMTEB
使用 JMTEB 进行评估。
模型 | 参数数量 | 平均分 | 检索 | STS | 分类 | 重排序 | 聚类 | 成对分类 |
---|---|---|---|---|---|---|---|---|
Ruri-v3-30m | 37M | 74.51 | 78.08 | 82.48 | 74.80 | 93.00 | 52.12 | 62.40 |
Ruri-v3-70m | 70M | 75.48 | 79.96 | 79.82 | 76.97 | 93.27 | 52.70 | 61.75 |
Ruri-v3-130m (本模型) |
132M | 76.55 | 81.89 | 79.25 | 77.16 | 93.31 | 55.36 | 62.26 |
Ruri-v3-310m | 315M | 77.24 | 81.89 | 81.22 | 78.66 | 93.43 | 55.69 | 62.60 |
sbintuitions/sarashina-embedding-v1-1b | 1.22B | 75.50 | 77.61 | 82.71 | 78.37 | 93.74 | 53.86 | 62.00 |
PLaMo-Embedding-1B | 1.05B | 76.10 | 79.94 | 83.14 | 77.20 | 93.57 | 53.47 | 62.37 |
OpenAI/text-embedding-ada-002 | - | 69.48 | 64.38 | 79.02 | 69.75 | 93.04 | 48.30 | 62.40 |
OpenAI/text-embedding-3-small | - | 70.86 | 66.39 | 79.46 | 73.06 | 92.92 | 51.06 | 62.27 |
OpenAI/text-embedding-3-large | - | 73.97 | 74.48 | 82.52 | 77.58 | 93.58 | 53.32 | 62.35 |
pkshatech/GLuCoSE-base-ja | 133M | 70.44 | 59.02 | 78.71 | 76.82 | 91.90 | 49.78 | 66.39 |
pkshatech/GLuCoSE-base-ja-v2 | 133M | 72.23 | 73.36 | 82.96 | 74.21 | 93.01 | 48.65 | 62.37 |
retrieva-jp/amber-base | 130M | 72.12 | 73.40 | 77.81 | 76.14 | 93.27 | 48.05 | 64.03 |
retrieva-jp/amber-large | 315M | 73.22 | 75.40 | 79.32 | 77.14 | 93.54 | 48.73 | 60.97 |
sentence-transformers/LaBSE | 472M | 64.70 | 40.12 | 76.56 | 72.66 | 91.63 | 44.88 | 62.33 |
intfloat/multilingual-e5-small | 118M | 69.52 | 67.27 | 80.07 | 67.62 | 93.03 | 46.91 | 62.19 |
intfloat/multilingual-e5-base | 278M | 70.12 | 68.21 | 79.84 | 69.30 | 92.85 | 48.26 | 62.26 |
intfloat/multilingual-e5-large | 560M | 71.65 | 70.98 | 79.70 | 72.89 | 92.96 | 51.24 | 62.15 |
Ruri-Small | 68M | 71.53 | 69.41 | 82.79 | 76.22 | 93.00 | 51.19 | 62.11 |
Ruri-Small v2 | 68M | 73.30 | 73.94 | 82.91 | 76.17 | 93.20 | 51.58 | 62.32 |
Ruri-Base | 111M | 71.91 | 69.82 | 82.87 | 75.58 | 92.91 | 54.16 | 62.38 |
Ruri-Base v2 | 111M | 72.48 | 72.33 | 83.03 | 75.34 | 93.17 | 51.38 | 62.35 |
Ruri-Large | 337M | 73.31 | 73.02 | 83.13 | 77.43 | 92.99 | 51.82 | 62.29 |
Ruri-Large v2 | 337M | 74.55 | 76.34 | 83.17 | 77.18 | 93.21 | 52.14 | 62.27 |
模型详情
模型描述
属性 | 详情 |
---|---|
模型类型 | 句子转换器 |
基础模型 | cl-nagoya/ruri-v3-pt-130m |
最大序列长度 | 8192 个标记 |
输出维度 | 512 |
相似度函数 | 余弦相似度 |
语言 | 日语 |
许可证 | Apache 2.0 |
论文 | https://arxiv.org/abs/2409.07737 |
完整模型架构
SentenceTransformer(
(0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: ModernBertModel
(1): Pooling({'word_embedding_dimension': 512, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)
🔧 技术细节
瑠璃(Ruri)v3 是一个基于 ModernBERT-Ja 构建的通用日语文本嵌入模型。它在日语文本嵌入任务中具有多个关键技术优势,包括支持长达 8192 个标记的序列长度、扩展到 100K 标记的词汇表、集成 FlashAttention 以及仅基于 SentencePiece 的分词器。这些技术改进使得瑠璃(Ruri)v3 在性能和效率上都有显著提升。
📄 许可证
本模型根据 Apache 许可证 2.0 版 发布。
引用
@misc{
Ruri,
title={{Ruri: Japanese General Text Embeddings}},
author={Hayato Tsukagoshi and Ryohei Sasano},
year={2024},
eprint={2409.07737},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2409.07737},
}
Jina Embeddings V3
Jina Embeddings V3 是一个多语言句子嵌入模型,支持超过100种语言,专注于句子相似度和特征提取任务。
文本嵌入
Transformers 支持多种语言

J
jinaai
3.7M
911
Ms Marco MiniLM L6 V2
Apache-2.0
基于MS Marco段落排序任务训练的交叉编码器模型,用于信息检索中的查询-段落相关性评分
文本嵌入 英语
M
cross-encoder
2.5M
86
Opensearch Neural Sparse Encoding Doc V2 Distill
Apache-2.0
基于蒸馏技术的稀疏检索模型,专为OpenSearch优化,支持免推理文档编码,在搜索相关性和效率上优于V1版本
文本嵌入
Transformers 英语

O
opensearch-project
1.8M
7
Sapbert From PubMedBERT Fulltext
Apache-2.0
基于PubMedBERT的生物医学实体表征模型,通过自对齐预训练优化语义关系捕捉
文本嵌入 英语
S
cambridgeltl
1.7M
49
Gte Large
MIT
GTE-Large 是一个强大的句子转换器模型,专注于句子相似度和文本嵌入任务,在多个基准测试中表现出色。
文本嵌入 英语
G
thenlper
1.5M
278
Gte Base En V1.5
Apache-2.0
GTE-base-en-v1.5 是一个英文句子转换器模型,专注于句子相似度任务,在多个文本嵌入基准测试中表现优异。
文本嵌入
Transformers 支持多种语言

G
Alibaba-NLP
1.5M
63
Gte Multilingual Base
Apache-2.0
GTE Multilingual Base 是一个多语言的句子嵌入模型,支持超过50种语言,适用于句子相似度计算等任务。
文本嵌入
Transformers 支持多种语言

G
Alibaba-NLP
1.2M
246
Polybert
polyBERT是一个化学语言模型,旨在实现完全由机器驱动的超快聚合物信息学。它将PSMILES字符串映射为600维密集指纹,以数值形式表示聚合物化学结构。
文本嵌入
Transformers

P
kuelumbus
1.0M
5
Bert Base Turkish Cased Mean Nli Stsb Tr
Apache-2.0
基于土耳其语BERT的句子嵌入模型,专为语义相似度任务优化
文本嵌入
Transformers 其他

B
emrecan
1.0M
40
GIST Small Embedding V0
MIT
基于BAAI/bge-small-en-v1.5模型微调的文本嵌入模型,通过MEDI数据集与MTEB分类任务数据集训练,优化了检索任务的查询编码能力。
文本嵌入
Safetensors 英语
G
avsolatorio
945.68k
29
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98
智启未来,您的人工智能解决方案智库
简体中文