sup-simcse-ja-base开源日语嵌入模型 - 免费用于句子相似度计算与特征提取

首页

Sup Simcse Ja Base

由 cl-nagoya 开发

基于监督式SimCSE方法微调的日语句子嵌入模型，适用于句子相似度计算和特征提取任务。

文本嵌入

Transformers

日语#日语句子嵌入 #监督式SimCSE #JSNLI微调

下载量 3,027

发布时间 : 10/2/2023

模型简介

该模型是基于BERT架构的日语句子嵌入模型，通过监督式SimCSE方法在JSNLI数据集上微调，能够生成高质量的句子嵌入表示，适用于句子相似度计算、信息检索等自然语言处理任务。

模型特点

监督式SimCSE微调

采用监督式SimCSE方法进行微调，提升了句子嵌入的质量和区分度。

日语优化

基于日语BERT模型(cl-tohoku/bert-base-japanese-v3)构建，专门针对日语文本优化。

高效池化策略

采用CLS标记池化策略，训练时额外添加MLP层，增强句子表示能力。

模型能力

句子嵌入生成

句子相似度计算

日语文本特征提取

信息检索

使用案例

自然语言处理

语义搜索

用于构建日语语义搜索引擎，根据查询句子的语义相似度检索相关文档。

文本聚类

对日语文本进行聚类分析，发现相似内容或主题。

问答系统

作为问答系统的组件，用于匹配问题和相关知识片段。

🚀 sup-simcse-ja-base

sup-simcse-ja-base 是一个用于句子特征提取和相似度计算的模型，它基于预训练的日语 BERT 模型进行微调，能有效处理日语句子的语义理解任务。

🚀 快速开始

📦 安装指南

如果你已经安装了 sentence-transformers，使用该模型会变得非常简单：

pip install -U fugashi[unidic-lite] sentence-transformers

💻 使用示例

基础用法（Sentence-Transformers）

from sentence_transformers import SentenceTransformer
sentences = ["こんにちは、世界！", "文埋め込み最高！文埋め込み最高と叫びなさい", "極度乾燥しなさい"]

model = SentenceTransformer("cl-nagoya/sup-simcse-ja-base")
embeddings = model.encode(sentences)
print(embeddings)

高级用法（HuggingFace Transformers）

若未安装 sentence-transformers，可以按以下方式使用该模型：首先，将输入数据传入 Transformer 模型，然后对上下文词嵌入应用合适的池化操作。

from transformers import AutoTokenizer, AutoModel
import torch


def cls_pooling(model_output, attention_mask):
    return model_output[0][:,0]


# Sentences we want sentence embeddings for
sentences = ['This is an example sentence', 'Each sentence is converted']

# Load model from HuggingFace Hub
tokenizer = AutoTokenizer.from_pretrained("cl-nagoya/sup-simcse-ja-base")
model = AutoModel.from_pretrained("cl-nagoya/sup-simcse-ja-base")

# Tokenize sentences
encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt')

# Compute token embeddings
with torch.no_grad():
    model_output = model(**encoded_input)

# Perform pooling. In this case, cls pooling.
sentence_embeddings = cls_pooling(model_output, encoded_input['attention_mask'])

print("Sentence embeddings:")
print(sentence_embeddings)

📚 详细文档

🔧 技术细节

完整模型架构

SentenceTransformer(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: BertModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False})
)

模型概要

属性	详情
微调方法	有监督的 SimCSE
基础模型	cl-tohoku/bert-base-japanese-v3
训练数据集	JSNLI
池化策略	cls（仅在训练期间使用额外的 MLP 层）
隐藏层大小	768
学习率	5e-5
批量大小	512
温度	0.05
最大序列长度	64
训练样本数量	2^20
验证间隔（步数）	2^6
热身比例	0.1
数据类型	BFloat16

更多详细的实验设置请参考 GitHub 仓库。

📄 许可证

本模型采用 CC BY-SA 4.0 许可证。

🔖 引用与作者

@misc{
  hayato-tsukagoshi-2023-simple-simcse-ja,
  author = {Hayato Tsukagoshi},
  title = {Japanese Simple-SimCSE},
  year = {2023},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {\url{https://github.com/hppRC/simple-simcse-ja}}
}