开源免费sarashina-embedding-v1-1b文本嵌入模型，在日语处理上表现优异

首页

Sarashina Embedding V1 1b

由 sbintuitions 开发

基于12亿参数日语大语言模型开发的文本嵌入模型，在JMTEB基准测试中表现优异

文本嵌入

Transformers

支持多种语言#日语文本嵌入 #8192长文本支持 #1792维稠密向量

下载量 23.85k

发布时间 : 11/22/2024

模型简介

更级嵌入模型v1-1B是基于日语大语言模型的文本嵌入模型，能将句子和段落映射到1792维稠密向量空间，适用于语义文本相似度计算、语义搜索等多种场景

模型特点

高维稠密向量

输出1792维稠密向量，能更精细地捕捉语义信息

长文本支持

最大支持8192个token的长文本处理

多阶段训练

通过弱监督学习和监督微调两阶段训练，提升模型性能

日语优化

专门针对日语文本进行优化，在JMTEB基准测试中表现优异

模型能力

语义文本相似度计算

语义搜索

复述挖掘

文本分类

聚类分析

使用案例

信息检索

文档检索

根据查询语义快速检索相关文档

在JMTEB检索任务中得分77.61

文本分析

文本相似度计算

计算两段文本的语义相似度

在JMTEB语义相似度任务中得分82.71

文本聚类

将语义相似的文本自动分组

在JMTEB聚类任务中得分53.86

🚀 Sarashina-Embedding-v1-1B

"Sarashina-Embedding-v1-1B" 是一个日语文本嵌入模型，它基于拥有 12 亿参数的日语大语言模型 "Sarashina2.1-1B"。该模型通过多阶段对比学习进行训练，在 JMTEB（日语大规模文本嵌入基准测试）的 16 个数据集中取得了最先进的平均分数。此模型可将句子和段落映射到 1792 维的密集向量空间，适用于语义文本相似度计算、语义搜索、释义挖掘、文本分类、聚类等应用场景。

🚀 快速开始

安装依赖

首先，你需要安装 Sentence Transformers 库：

pip install -U sentence-transformers

加载模型并进行推理

以下是一个使用示例：

from sentence_transformers import SentenceTransformer

# 从 🤗 Hub 下载模型
model = SentenceTransformer("sbintuitions/sarashina-embedding-v1-1b")
# 运行推理
sentences = [
    '更級日記は、平安時代中期に菅原孝標女によって書かれた回想録です。',
    'Sarashinaは、SB Intuitionsが開発した日本語大規模言語モデルです。これまでに7B, 13B, 70B, 8x70Bのモデルが公開されています。',
    'サラシナエンベディングは日本語言語モデルをベースにした日本語埋め込みモデルです。'
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 1792]

# 获取嵌入向量之间的相似度分数
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

注意事项

⚠️ 重要提示

输入句子开头无需添加 "Query: " 和 "Document: " 等前缀。

此模型遵循 Sarashina 模型非商业许可协议，对商业使用有一定限制。如果您有商业使用需求，请通过联系页面与我们联系。

✨ 主要特性

基于 12 亿参数的日语大语言模型 "Sarashina2.1-1B" 构建。
通过多阶段对比学习训练，在 JMTEB 基准测试中表现优异。
可将文本映射到 1792 维的密集向量空间，适用于多种自然语言处理任务。

📚 详细文档

模型详情

模型描述

属性	详情
模型类型	Sentence Transformer
基础模型	Sarashina2.1-1B
最大序列长度	8192 个词元
输出维度	1792 维
相似度函数	余弦相似度
语言	日语
许可证	Sarashina 模型非商业许可协议

完整模型架构

SentenceTransformer(
  (0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: LlamaModel 
  (1): Pooling({'word_embedding_dimension': 1792, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': True, 'include_prompt': False})
)

训练过程

"Sarashina-Embedding-v1-1B" 是通过以下两阶段学习过程创建的：

阶段 1：弱监督学习

为了在广泛的领域中实现通用的文本嵌入性能，我们对由自有网络爬取数据和开放数据组成的弱监督数据进行了对比训练。

数据集

数据集	数量
Auto Wiki QA/NLI	50,521,135
网络爬取数据（自有）	47,370,649
MQA	12,941,472
llm-japanese-dataset	9,074,340
Wikipedia	5,555,212
问答数据集（自有）	988,478
Natural Questions	132,796
JSQuAD	62,859
SNOW(T15+T23)	62,758
JaQuAD	31,746
MKQA	3,318
总计	126,744,763

步骤 2：有监督微调

为了使模型能够学习更准确的查询 - 文档相似度，我们使用以下数据集进行了有监督微调。

数据集

数据集	数量
JSNLI	141,388
NU-MNLI	67,987
Mr. TyDi（仅日语子集）	3,697
Natural Questions（采样）	20,000
总计	233,072

评估结果（使用 JMTEB）

模型	最大词元数	平均分	检索	STS	分类	重排序	聚类	成对分类
OpenAI/text-embedding-3-large[^oai]	8191	74.05	74.48	82.52	77.58	93.58	53.32	62.35
cl-nagoya/ruri-large	512	73.31	73.02	83.13	77.43	92.99	51.82	62.29
pkshatech/GLuCoSE-base-ja-v2	512	72.23	73.36	82.96	74.21	93.01	48.65	62.37
pkshatech/RoSEtta-base-ja	1024	72.04	73.21	81.39	72.41	92.69	53.23	61.74
intfloat/multilingual-e5-large	512	70.90	70.98	79.70	72.89	92.96	51.24	62.15
Sarashina-Embedding-v1-1B（本模型）	8192	75.50	77.61	82.71	78.37	93.74	53.86	62.00