语言:
- 日语
标签:
- 句子相似度
- 特征提取
基础模型: cl-nagoya/ruri-pt-small
小部件: []
管道标签: 句子相似度
许可证: apache-2.0
数据集:
- cl-nagoya/ruri-dataset-ft
Ruri: 日语通用文本嵌入模型
注意:v3版本模型已发布!
我们推荐使用以下v3系列模型:
使用方法
直接使用(Sentence Transformers)
首先安装Sentence Transformers库:
pip install -U sentence-transformers fugashi sentencepiece unidic-lite
然后加载模型并进行推理:
import torch.nn.functional as F
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("cl-nagoya/ruri-small", trust_remote_code=True)
sentences = [
"クエリ: 瑠璃色是什么颜色?",
"文章: 瑠璃色(るりいろ)是带紫色的深蓝色。名称源自半宝石琉璃(青金石,英文:lapis lazuli)。在JIS常用色名中定义为「浓紫味青」(简称 dp-pB)[1][2]。",
"クエリ: 像鹰或雕这样具有锐利喙和爪的大型鸟类统称为什么类?",
"文章: 鹰、雕、秃鹫、隼、秃鹰、猫头鹰是典型代表。这些猛禽在林奈时代(17~18世纪)被分类为鹰类、雕类、隼类及鸮类。林奈将捕食性鸟类归为单一目,包含秃鹫属(秃鹰、秃鹫)、隼属(鹰、雕、隼等)、鸮属(猫头鹰)、伯劳属(伯劳)四个属。",
]
embeddings = model.encode(sentences, convert_to_tensor=True)
print(embeddings.size())
similarities = F.cosine_similarity(embeddings.unsqueeze(0), embeddings.unsqueeze(1), dim=2)
print(similarities)
基准测试
JMTEB评估
使用JMTEB进行评估。
模型详情
模型描述
- 模型类型: 句子转换器
- 基础模型: cl-nagoya/ruri-pt-small
- 最大序列长度: 512个标记
- 输出维度: 768
- 相似度函数: 余弦相似度
- 语言: 日语
- 许可证: Apache 2.0
- 论文: https://arxiv.org/abs/2409.07737
完整模型架构
SentenceTransformer(
(0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: DistilBertModel
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)
训练详情
框架版本
- Python: 3.10.13
- Sentence Transformers: 3.0.0
- Transformers: 4.41.2
- PyTorch: 2.3.1+cu118
- Accelerate: 0.30.1
- Datasets: 2.19.1
- Tokenizers: 0.19.1
引用
@misc{
Ruri,
title={{Ruri: 日语通用文本嵌入模型}},
author={Hayato Tsukagoshi and Ryohei Sasano},
year={2024},
eprint={2409.07737},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2409.07737},
}
许可证
本模型采用Apache License, Version 2.0发布。