语言:
- 日语
标签:
- 句子相似度
- 特征提取
基础模型: cl-nagoya/ruri-v3-pt-130m
小部件: []
管道标签: 句子相似度
许可证: apache-2.0
数据集:
- cl-nagoya/ruri-v3-dataset-ft
Ruri: 日语通用文本嵌入模型
Ruri v3 是一款基于 ModernBERT-Ja 构建的日语通用文本嵌入模型。Ruri v3 具有以下关键技术优势:
- 在日语文本嵌入任务中达到最先进的性能。
- 支持长达8192个标记的序列
- 之前的 Ruri 版本(v1、v2)仅支持512个标记。
- 词汇量扩展至10万标记,而 v1 和 v2 仅为3.2万
- 集成 FlashAttention,遵循 ModernBERT 的架构
- 仅基于 SentencePiece 的分词器
- 与之前依赖日语特定 BERT 分词器并需要预分词输入的版本不同,Ruri v3 仅使用 SentencePiece 进行分词——无需外部分词工具。
模型系列
我们提供了多种规模的 Ruri-v3 模型。以下是各模型的概要。
使用方法
您可以直接使用 transformers 库(v4.48.0 或更高版本)加载我们的模型:
pip install -U "transformers>=4.48.0" sentence-transformers
此外,如果您的 GPU 支持 Flash Attention 2,我们推荐结合 Flash Attention 2 使用我们的模型。
pip install flash-attn --no-build-isolation
然后您可以加载模型并进行推理。
import torch
import torch.nn.functional as F
from sentence_transformers import SentenceTransformer
device = "cuda" if torch.cuda.is_available() else "cpu"
model = SentenceTransformer("cl-nagoya/ruri-v3-130m", device=device)
sentences = [
"川べりでサーフボードを持った人たちがいます",
"サーファーたちが川べりに立っています",
"トピック: 瑠璃色のサーファー",
"検索クエリ: 瑠璃色はどんな色?",
"検索文ド: 瑠璃色(るりいろ)は、紫みを帯びた濃い青。名は、半貴石の瑠璃(ラピスラズリ、英: lapis lazuli)による。JIS慣用色名では「こい紫みの青」(略号 dp-pB)と定義している[1][2]。",
]
embeddings = model.encode(sentences, convert_to_tensor=True)
print(embeddings.size())
similarities = F.cosine_similarity(embeddings.unsqueeze(0), embeddings.unsqueeze(1), dim=2)
print(similarities)
基准测试
JMTEB
使用 JMTEB 进行评估。
模型详情
模型描述
- 模型类型: 句子转换器
- 基础模型: cl-nagoya/ruri-v3-pt-130m
- 最大序列长度: 8192 个标记
- 输出维度: 512
- 相似度函数: 余弦相似度
- 语言: 日语
- 许可证: Apache 2.0
- 论文: https://arxiv.org/abs/2409.07737
完整模型架构
SentenceTransformer(
(0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: ModernBertModel
(1): Pooling({'word_embedding_dimension': 512, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)
引用
@misc{
Ruri,
title={{Ruri: 日语通用文本嵌入模型}},
author={Hayato Tsukagoshi and Ryohei Sasano},
year={2024},
eprint={2409.07737},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2409.07737},
}
许可证
本模型基于 Apache License, Version 2.0 发布。