🚀 Ruri:日语通用文本嵌入模型
Ruri v3 是一个基于 ModernBERT-Ja 构建的通用日语文本嵌入模型。它在日语文本嵌入任务中具有显著的技术优势,能够高效处理长文本,为自然语言处理领域提供了强大的支持。
✨ 主要特性
- 卓越性能:在日语文本嵌入任务中表现出色,达到了当前的先进水平。
- 长序列支持:支持最长达 8192 个标记的序列长度,相比之前版本(v1、v2)的 512 个标记有了显著提升。
- 扩展词汇表:词汇表扩展到 100K 个标记,而 v1 和 v2 仅为 32K。更大的词汇表使输入序列更短,提高了效率。
- 集成 FlashAttention:采用 ModernBERT 架构,集成了 FlashAttention,实现了更快的推理和微调。
- 单一分词器:仅使用 SentencePiece 作为分词器,无需外部分词工具,与之前依赖特定日语 BERT 分词器且需要预分词输入的版本不同。
📦 安装指南
你可以使用 transformers
库 v4.48.0 或更高版本直接使用我们的模型:
pip install -U "transformers>=4.48.0" sentence-transformers
此外,如果你的 GPU 支持 Flash Attention 2,我们建议使用 Flash Attention 2 运行模型:
pip install flash-attn --no-build-isolation
💻 使用示例
基础用法
import torch
import torch.nn.functional as F
from sentence_transformers import SentenceTransformer
device = "cuda" if torch.cuda.is_available() else "cpu"
model = SentenceTransformer("cl-nagoya/ruri-v3-70m", device=device)
sentences = [
"川べりでサーフボードを持った人たちがいます",
"サーファーたちが川べりに立っています",
"トピック: 瑠璃色のサーファー",
"検索クエリ: 瑠璃色はどんな色?",
"検索文書: 瑠璃色(るりいろ)は、紫みを帯びた濃い青。名は、半貴石の瑠璃(ラピスラズリ、英: lapis lazuli)による。JIS慣用色名では「こい紫みの青」(略号 dp-pB)と定義している[1][2]。",
]
embeddings = model.encode(sentences, convert_to_tensor=True)
print(embeddings.size())
similarities = F.cosine_similarity(embeddings.unsqueeze(0), embeddings.unsqueeze(1), dim=2)
print(similarities)
📚 详细文档
模型系列
我们提供了多种尺寸的 Ruri-v3 模型,以下是每个模型的概要:
基准测试
JMTEB
使用 JMTEB 进行评估:
模型详情
模型描述
属性 |
详情 |
模型类型 |
句子转换器 |
基础模型 |
cl-nagoya/ruri-v3-pt-70m |
最大序列长度 |
8192 个标记 |
输出维度 |
384 |
相似度函数 |
余弦相似度 |
语言 |
日语 |
许可证 |
Apache 2.0 |
论文 |
https://arxiv.org/abs/2409.07737 |
完整模型架构
SentenceTransformer(
(0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: ModernBertModel
(1): Pooling({'word_embedding_dimension': 384, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)
🔧 技术细节
Ruri v3 在日语文本嵌入任务中展现了卓越的性能,主要得益于其先进的架构和技术创新。它基于 ModernBERT-Ja 构建,集成了 FlashAttention 技术,实现了更快的推理和微调。同时,扩展的词汇表和对长序列的支持,使得模型在处理复杂的日语文本时更加高效和准确。
📄 许可证
本模型根据 Apache 许可证 2.0 版 发布。
引用
@misc{
Ruri,
title={{Ruri: Japanese General Text Embeddings}},
author={Hayato Tsukagoshi and Ryohei Sasano},
year={2024},
eprint={2409.07737},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2409.07737},
}