plamo-embedding-1b开源日语文本嵌入模型 - 基准测试表现优异实用之选

首页

Plamo Embedding 1b

由 pfnet 开发

PLaMo-Embedding-1B是由Preferred Networks公司开发的日语文本嵌入模型，在日语文本嵌入基准测试中表现优异

文本嵌入

Transformers

日语开源协议:Apache-2.0 #日语文本嵌入 #高维向量 #信息检索优化

下载量 33.48k

发布时间 : 4/11/2025

模型简介

该模型能将日语文本输入转化为数值向量，可广泛应用于信息检索、文本分类和聚类等场景

模型特点

日语文本嵌入

专门针对日语文本优化的嵌入模型

高性能

在日语文本嵌入基准测试(JMTEB)中取得顶级评分

长文本支持

支持最大4096 tokens的上下文长度

商业友好

采用Apache v2.0许可，允许商业用途

模型能力

文本向量化

语义相似度计算

信息检索

文本分类

文本聚类

使用案例

信息检索

文档搜索

通过计算查询与文档的语义相似度实现精准搜索

在检索任务中表现尤为突出

文本分析

文本分类

将文本转换为向量后进行分类

文本聚类

基于语义相似度对文本进行分组

🚀 PLaMo-Embedding-1B

PLaMo-Embedding-1B 是由 Preferred Networks, Inc 开发的日语文本嵌入模型，可将日语文本输入转换为数值向量，广泛应用于信息检索、文本分类和聚类等领域。

🚀 快速开始

PLaMo-Embedding-1B 是一个强大的日语文本嵌入模型，以下为你介绍如何快速使用它。

✨ 主要特性

高性能：截至 2025 年 4 月上旬，在日语文本嵌入基准测试 JMTEB 中取得了一流的成绩，尤其在检索任务中表现出色。
灵活使用：提供 encode_query 和 encode_document 方法，适用于不同的文本处理场景。
商业友好：基于 Apache v2.0 许可证发布，可免费用于商业用途。

📦 安装指南

使用该模型前，你需要安装以下依赖：

sentencepiece
torch
transformers

💻 使用示例

基础用法

import torch
import torch.nn.functional as F
from transformers import AutoModel, AutoTokenizer

# You can download models from the Hugging Face Hub 🤗 as follows:
tokenizer = AutoTokenizer.from_pretrained("pfnet/plamo-embedding-1b", trust_remote_code=True)
model = AutoModel.from_pretrained("pfnet/plamo-embedding-1b", trust_remote_code=True)

device = "cuda" if torch.cuda.is_available() else "cpu"
model = model.to(device)

query = "PLaMo-Embedding-1Bとは何ですか？"
documents = [
    "PLaMo-Embedding-1Bは、Preferred Networks, Inc. によって開発された日本語テキスト埋め込みモデルです。",
    "最近は随分と暖かくなりましたね。"
]

with torch.inference_mode():
    # For embedding query texts in information retrieval, please use the `encode_query` method.
    # You also need to pass the `tokenizer`.
    query_embedding = model.encode_query(query, tokenizer)
    # For other texts/sentences, please use the `encode_document` method.
    # Also, for applications other than information retrieval, please use the `encode_document` method.
    document_embeddings = model.encode_document(documents, tokenizer)

# The similarity between vectors obtained by inputting sentences into the model is high for similar sentences and low for dissimilar sentences.
# This feature can be utilized for applications such as information retrieval.
similarities = F.cosine_similarity(query_embedding, document_embeddings)
print(similarities)
# tensor([0.8812, 0.5533])

高级用法

# 注意事项说明：对于 `encode_document` 和 `encode_query`，超过模型最大上下文长度 4096 的文本将被截断。特别要注意的是，对于 `encode_query`，内部会添加一个前缀，使得有效最大上下文长度略短。
# 此代码示例展示了在实际使用中，如何处理可能出现的文本长度问题以及如何利用模型的特性进行信息检索等应用。
import torch
import torch.nn.functional as F
from transformers import AutoModel, AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("pfnet/plamo-embedding-1b", trust_remote_code=True)
model = AutoModel.from_pretrained("pfnet/plamo-embedding-1b", trust_remote_code=True)

device = "cuda" if torch.cuda.is_available() else "cpu"
model = model.to(device)

# 模拟一个较长的查询文本
long_query = "这是一个非常长的查询文本，可能会超过模型的最大上下文长度，我们需要注意处理这种情况。PLaMo-Embedding-1Bとは何ですか？"
documents = [
    "PLaMo-Embedding-1Bは、Preferred Networks, Inc. によって開発された日本語テキスト埋め込みモデルです。",
    "最近は随分と暖かくなりましたね。"
]

with torch.inference_mode():
    try:
        query_embedding = model.encode_query(long_query, tokenizer)
    except Exception as e:
        print(f"查询文本处理出错: {e}，可能是因为文本过长。")
        # 这里可以添加进一步的处理逻辑，如截断文本等
    document_embeddings = model.encode_document(documents, tokenizer)

similarities = F.cosine_similarity(query_embedding, document_embeddings)
print(similarities)

📚 详细文档

基准测试

我们使用日语文本嵌入基准测试 JMTEB 对模型进行了性能评估，结果如下：

模型	平均得分	检索任务	STS	分类任务	重排序任务	聚类任务	成对分类任务
intfloat/multilingual-e5-large	70.90	70.98	79.70	72.89	92.96	51.24	62.15
pkshatech/GLuCoSE-base-ja-v2	72.23	73.36	82.96	74.21	93.01	48.65	62.37
OpenAI/text-embedding-3-large	74.05	74.48	82.52	77.58	93.58	53.32	62.35
cl-nagoya/ruri-large-v2	74.55	76.34	83.17	77.18	93.21	52.14	62.27
Sarashina-Embedding-v1-1B	75.50	77.61	82.71	78.37	93.74	53.86	62.00
PLaMo-Embedding-1B (本模型) (*)	76.10	79.94	83.14	77.20	93.57	53.47	62.37

(*)：使用上下文长度 1024 进行测量。虽然模型支持最大上下文长度为 4096，但由于训练期间包含的上下文长度最大为 1024，因此我们在 1024 进行测量。不过，已知在 4096 进行评估对平均得分影响不大。(参考：技术博客 (日语))

模型详情

属性	详情
模型类型	日语文本嵌入模型
模型大小	1B
最大上下文长度	4096 个标记
嵌入维度	2048
相似度函数	余弦相似度
开发者	Preferred Networks, Inc
语言	日语
许可证	Apache v2.0

🔧 技术细节

如需了解更多技术细节，请参考以下技术博客文章（日语）：https://tech.preferred.jp/ja/blog/plamo-embedding-1b/

📄 许可证

PLaMo-Embedding-1B 基于 Apache v2.0 许可证发布，你可以自由使用，包括用于商业目的。

如何引用

@online{PLaMoEmbedding1B,
    author    = {Preferred Networks, Inc},
    title     = {PLaMo-Embedding-1B},
    year      = {2025},
    url       = {https://huggingface.co/pfnet/plamo-embedding-1b},
    urldate   = {2025-04-17}
}