Ruri-Large开源日语文本模型 - 免费部署精准计算文本相似度，支持长文

首页

Ruri Large

由 cl-nagoya 开发

Ruri-Large 是一个专注于日语文本相似度计算的高性能嵌入模型，基于 transformer 架构，支持长文本处理（最大长度8192）。

文本嵌入

Safetensors

日语开源协议:Apache-2.0 #日语文本嵌入 #高精度语义相似度 #长文本支持

下载量 6,784

发布时间 : 8/28/2024

模型简介

该模型主要用于日语文本的语义相似度计算和特征提取，在JMTEB基准测试中表现出色。特别优化了查询和段落文本的区分能力，需在输入前添加'クエリ:'或'文章:'前缀。

模型特点

高性能日语处理

在JMTEB基准测试中平均得分73.31，优于同类日语嵌入模型

长文本支持

支持最大8192长度的文本处理，适合长文档分析

查询/段落区分

通过前缀标记区分查询文本和段落文本，优化检索效果

模型能力

日语文本嵌入

语义相似度计算

文本特征提取

信息检索

文本聚类

使用案例

信息检索

问答系统

通过计算查询与知识库段落的相似度实现精准问答

在JMTEB检索任务中获得73.02分

内容分析

文本聚类

对大量日语文本进行语义聚类分析

在JMTEB聚类任务中获得51.82分

🚀 瑠璃（Ruri）：日语通用文本嵌入模型

瑠璃（Ruri）是用于日语通用文本嵌入的模型，可进行句子相似度计算和特征提取。它有不同参数规模的版本可供选择，在JMTEB基准测试中表现出色。

🚀 快速开始

安装依赖

首先，你需要安装Sentence Transformers库及其相关依赖：

pip install -U sentence-transformers fugashi sentencepiece unidic-lite

加载模型并进行推理

安装完成后，你可以加载模型并进行推理：

import torch.nn.functional as F
from sentence_transformers import SentenceTransformer

# 从 🤗 Hub 下载模型
model = SentenceTransformer("cl-nagoya/ruri-large")

# 别忘了在查询文本前添加前缀 "クエリ: "，在段落文本前添加前缀 "文章: "
sentences = [
    "クエリ: 瑠璃色はどんな色？",
    "文章: 瑠璃色（るりいろ）は、紫みを帯びた濃い青。名は、半貴石の瑠璃（ラピスラズリ、英: lapis lazuli）による。JIS慣用色名では「こい紫みの青」（略号 dp-pB）と定義している[1][2]。",
    "クエリ: ワシやタカのように、鋭いくちばしと爪を持った大型の鳥類を総称して「何類」というでしょう?",
    "文章: ワシ、タカ、ハゲワシ、ハヤブサ、コンドル、フクロウが代表的である。これらの猛禽類はリンネ前後の時代(17~18世紀)には鷲類・鷹類・隼類及び梟類に分類された。ちなみにリンネは狩りをする鳥を単一の目(もく)にまとめ、vultur(コンドル、ハゲワシ)、falco(ワシ、タカ、ハヤブサなど)、strix(フクロウ)、lanius(モズ)の4属を含めている。",
]

embeddings = model.encode(sentences, convert_to_tensor=True)
print(embeddings.size())
# [4, 1024]

similarities = F.cosine_similarity(embeddings.unsqueeze(0), embeddings.unsqueeze(1), dim=2)
print(similarities)
# [[1.0000, 0.9429, 0.6565, 0.6997],
#  [0.9429, 1.0000, 0.6579, 0.6768],
#  [0.6565, 0.6579, 1.0000, 0.8933],
#  [0.6997, 0.6768, 0.8933, 1.0000]]

✨ 主要特性

多版本可选

目前已经发布了v3版本的模型，推荐使用以下v3模型：

模型ID	参数数量	最大长度	平均JMTEB得分
cl-nagoya/ruri-v3-30m	37M	8192	74.51
cl-nagoya/ruri-v3-70m	70M	8192	75.48
cl-nagoya/ruri-v3-130m	132M	8192	76.55
cl-nagoya/ruri-v3-310m	315M	8192	77.24

基准测试表现出色

在JMTEB基准测试中，Ruri模型在多个指标上表现优异：

模型	参数数量	平均得分	检索得分	STS得分	分类得分	重排得分	聚类得分	成对分类得分
cl-nagoya/sup-simcse-ja-base	111M	68.56	49.64	82.05	73.47	91.83	51.79	62.57
cl-nagoya/sup-simcse-ja-large	337M	66.51	37.62	83.18	73.73	91.48	50.56	62.51
cl-nagoya/unsup-simcse-ja-base	111M	65.07	40.23	78.72	73.07	91.16	44.77	62.44
cl-nagoya/unsup-simcse-ja-large	337M	66.27	40.53	80.56	74.66	90.95	48.41	62.49
pkshatech/GLuCoSE-base-ja	133M	70.44	59.02	78.71	76.82	91.90	49.78	66.39
sentence-transformers/LaBSE	472M	64.70	40.12	76.56	72.66	91.63	44.88	62.33
intfloat/multilingual-e5-small	118M	69.52	67.27	80.07	67.62	93.03	46.91	62.19
intfloat/multilingual-e5-base	278M	70.12	68.21	79.84	69.30	92.85	48.26	62.26
intfloat/multilingual-e5-large	560M	71.65	70.98	79.70	72.89	92.96	51.24	62.15
OpenAI/text-embedding-ada-002	-	69.48	64.38	79.02	69.75	93.04	48.30	62.40
OpenAI/text-embedding-3-small	-	70.86	66.39	79.46	73.06	92.92	51.06	62.27
OpenAI/text-embedding-3-large	-	73.97	74.48	82.52	77.58	93.58	53.32	62.35
Ruri-Small	68M	71.53	69.41	82.79	76.22	93.00	51.19	62.11
Ruri-Base	111M	71.91	69.82	82.87	75.58	92.91	54.16	62.38
Ruri-Large (本模型)	337M	73.31	73.02	83.13	77.43	92.99	51.82	62.29

📚 详细文档

模型详情

属性	详情
模型类型	Sentence Transformer
基础模型	cl-nagoya/ruri-pt-large
最大序列长度	512 tokens
输出维度	1024
相似度函数	余弦相似度
语言	日语
许可证	Apache 2.0
论文	https://arxiv.org/abs/2409.07737

完整模型架构

SentenceTransformer(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: BertModel 
  (1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)

框架版本

Python: 3.10.13
Sentence Transformers: 3.0.0
Transformers: 4.41.2
PyTorch: 2.3.1+cu118
Accelerate: 0.30.1
Datasets: 2.19.1
Tokenizers: 0.19.1

📄 许可证

本模型基于 Apache License, Version 2.0 许可协议发布。

📖 引用

如果你使用了本模型，请引用以下论文：

@misc{
  Ruri,
  title={{Ruri: Japanese General Text Embeddings}}, 
  author={Hayato Tsukagoshi and Ryohei Sasano},
  year={2024},
  eprint={2409.07737},
  archivePrefix={arXiv},
  primaryClass={cs.CL},
  url={https://arxiv.org/abs/2409.07737}, 
}