ko-sroberta-multitask开源韩语句子嵌入模型 - 助力聚类与语义搜索任务

首页

Ko Sroberta Multitask

由 jhgan 开发

这是一个基于sentence-transformers的韩语句子嵌入模型，能够将句子和段落映射到768维的密集向量空间，适用于聚类或语义搜索等任务。

文本嵌入韩语#韩语句子嵌入 #多任务学习 #语义相似度

下载量 162.23k

发布时间 : 3/2/2022

模型简介

该模型基于RoBERTa架构，经过多任务学习训练，专门用于处理韩语句子的嵌入表示，支持句子相似度计算和特征提取。

模型特点

多任务学习

模型使用KorSTS和KorNLI训练数据集进行多任务学习，提高了句子嵌入的质量。

高效语义表示

能够将句子和段落高效地映射到768维的密集向量空间，保留语义信息。

韩语优化

专门针对韩语进行优化，适合处理韩语句子的嵌入和相似度计算。

模型能力

句子嵌入

语义搜索

文本聚类

句子相似度计算

使用案例

自然语言处理

语义搜索

使用句子嵌入进行高效的语义搜索，找到与查询句子语义相似的文档或段落。

文本聚类

将大量韩语文本聚类成具有相似语义的组别，用于文本分类或信息组织。

🚀 韩语多任务句子嵌入模型ko - sroberta - multitask

本模型是基于 sentence - transformers 的模型，它能够将句子和段落映射到 768 维的密集向量空间，可用于聚类、语义搜索等任务。

🚀 快速开始

📦 安装指南

若已安装 sentence - transformers，使用此模型将十分便捷：

pip install -U sentence-transformers

💻 使用示例

基础用法

使用 sentence - transformers 库调用模型：

from sentence_transformers import SentenceTransformer
sentences = ["안녕하세요?", "한국어 문장 임베딩을 위한 버트 모델입니다."]

model = SentenceTransformer('jhgan/ko-sroberta-multitask')
embeddings = model.encode(sentences)
print(embeddings)

高级用法

若未安装 sentence - transformers，可按以下方式使用模型：首先将输入数据传入 Transformer 模型，然后对上下文词嵌入应用合适的池化操作。

from transformers import AutoTokenizer, AutoModel
import torch


#Mean Pooling - Take attention mask into account for correct averaging
def mean_pooling(model_output, attention_mask):
    token_embeddings = model_output[0] #First element of model_output contains all token embeddings
    input_mask_expanded = attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float()
    return torch.sum(token_embeddings * input_mask_expanded, 1) / torch.clamp(input_mask_expanded.sum(1), min=1e-9)


# Sentences we want sentence embeddings for
sentences = ['This is an example sentence', 'Each sentence is converted']

# Load model from HuggingFace Hub
tokenizer = AutoTokenizer.from_pretrained('jhgan/ko-sroberta-multitask')
model = AutoModel.from_pretrained('jhgan/ko-sroberta-multitask')

# Tokenize sentences
encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt')

# Compute token embeddings
with torch.no_grad():
    model_output = model(**encoded_input)

# Perform pooling. In this case, mean pooling.
sentence_embeddings = mean_pooling(model_output, encoded_input['attention_mask'])

print("Sentence embeddings:")
print(sentence_embeddings)

📚 详细文档

🔍 评估结果

该模型在 KorSTS、KorNLI 训练数据集上进行多任务训练后，使用 KorSTS 评估数据集进行评估，结果如下：

评估指标	数值
Cosine Pearson	84.77
Cosine Spearman	85.60
Euclidean Pearson	83.71
Euclidean Spearman	84.40
Manhattan Pearson	83.70
Manhattan Spearman	84.38
Dot Pearson	82.42
Dot Spearman	82.33

🔧 技术细节

训练参数

数据加载器 1：
- 类型：sentence_transformers.datasets.NoDuplicatesDataLoader.NoDuplicatesDataLoader
- 长度：8885
- 参数：
```
{'batch_size': 64}
```
损失函数 1：
- 类型：sentence_transformers.losses.MultipleNegativesRankingLoss.MultipleNegativesRankingLoss
- 参数：
```
{'scale': 20.0, 'similarity_fct': 'cos_sim'}
```

数据加载器 2：

类型：torch.utils.data.dataloader.DataLoader
长度：719
参数：

{'batch_size': 8, 'sampler': 'torch.utils.data.sampler.RandomSampler', 'batch_sampler': 'torch.utils.data.sampler.BatchSampler'}

损失函数 2：
- 类型：sentence_transformers.losses.CosineSimilarityLoss.CosineSimilarityLoss

训练方法参数

{
    "epochs": 5,
    "evaluation_steps": 1000,
    "evaluator": "sentence_transformers.evaluation.EmbeddingSimilarityEvaluator.EmbeddingSimilarityEvaluator",
    "max_grad_norm": 1,
    "optimizer_class": "<class 'transformers.optimization.AdamW'>",
    "optimizer_params": {
        "lr": 2e-05
    },
    "scheduler": "WarmupLinear",
    "steps_per_epoch": null,
    "warmup_steps": 360,
    "weight_decay": 0.01
}

🏗️ 完整模型架构

SentenceTransformer(
  (0): Transformer({'max_seq_length': 128, 'do_lower_case': False}) with Transformer model: RobertaModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False})
)

📄 引用与作者

Ham, J., Choe, Y. J., Park, K., Choi, I., & Soh, H. (2020). Kornli and korsts: New benchmark datasets for korean natural language understanding. arXiv preprint arXiv:2004.03289
Reimers, Nils and Iryna Gurevych. “Sentence - BERT: Sentence Embeddings using Siamese BERT - Networks.” ArXiv abs/1908.10084 (2019)
Reimers, Nils and Iryna Gurevych. “Making Monolingual Sentence Embeddings Multilingual Using Knowledge Distillation.” EMNLP (2020).