语言:
- 日语
标签:
- 句子相似度
- 特征提取
基础模型: cl-nagoya/ruri-v3-pt-30m
小部件: []
流水线标签: 句子相似度
许可证: apache-2.0
数据集:
- cl-nagoya/ruri-v3-dataset-ft
Ruri: 日语通用文本嵌入模型
Ruri v3 是一款基于ModernBERT-Ja构建的通用日语文本嵌入模型。
Ruri v3具备以下核心技术优势:
- 日语文本嵌入任务的顶尖性能
- 支持长达8192个标记的序列处理
- 10万标记的扩展词汇表(v1/v2为3.2万)
- 集成FlashAttention技术(继承ModernBERT架构)
- 纯SentencePiece分词器
- 不同于前代依赖日语专用BERT分词器且需预分词输入,v3仅需SentencePiece即可完成分词——无需外部分词工具。
模型系列
我们提供多种规模的Ruri-v3模型,各模型参数如下:
使用方法
需使用transformers库v4.48.0或更高版本:
pip install -U "transformers>=4.48.0" sentence-transformers
若GPU支持Flash Attention 2,推荐安装:
pip install flash-attn --no-build-isolation
加载模型示例:
import torch
import torch.nn.functional as F
from sentence_transformers import SentenceTransformer
device = "cuda" if torch.cuda.is_available() else "cpu"
model = SentenceTransformer("cl-nagoya/ruri-v3-30m", device=device)
sentences = [
"川べりでサーフボードを持った人たちがいます",
"サーファーたちが川べりに立っています",
"トピック: 瑠璃色のサーファー",
"検索クエリ: 瑠璃色はどんな色?",
"検索文書: 瑠璃色(るりいろ)は、紫みを帯びた濃い青。名は、半貴石の瑠璃(ラピスラズリ、英: lapis lazuli)による。JIS慣用色名では「こい紫みの青」(略号 dp-pB)と定義している[1][2]。",
]
embeddings = model.encode(sentences, convert_to_tensor=True)
print(embeddings.size())
similarities = F.cosine_similarity(embeddings.unsqueeze(0), embeddings.unsqueeze(1), dim=2)
print(similarities)
性能基准
JMTEB评估
使用JMTEB测试:
模型 |
参数量 |
平均分 |
检索 |
STS |
分类 |
重排序 |
聚类 |
配对分类 |
Ruri-v3-30m |
3700万 |
74.51 |
78.08 |
82.48 |
74.80 |
93.00 |
52.12 |
62.40 |
Ruri-v3-70m |
7000万 |
75.48 |
79.96 |
79.82 |
76.97 |
93.27 |
52.70 |
61.75 |
Ruri-v3-130m |
1.32亿 |
76.55 |
81.89 |
79.25 |
77.16 |
93.31 |
55.36 |
62.26 |
Ruri-v3-310m |
3.15亿 |
77.24 |
81.89 |
81.22 |
78.66 |
93.43 |
55.69 |
62.60 |
(此处省略其他竞品模型对比数据...)
模型详情
模型描述
- 模型类型: 句子转换器
- 基础模型: cl-nagoya/ruri-v3-pt-30m
- 最大序列长度: 8192标记
- 输出维度: 256
- 相似度函数: 余弦相似度
- 语言: 日语
- 许可证: Apache 2.0
- 论文: https://arxiv.org/abs/2409.07737
完整架构
SentenceTransformer(
(0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: ModernBertModel
(1): Pooling({'word_embedding_dimension': 256, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)
引用
@misc{
Ruri,
title={{Ruri: Japanese General Text Embeddings}},
author={Hayato Tsukagoshi and Ryohei Sasano},
year={2024},
eprint={2409.07737},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2409.07737},
}
许可证
本模型采用Apache License 2.0发布。