snowflake-arctic-embed-l-v2.0-ko开源模型 - 实现语义文本比对与搜索功能！

首页

Snowflake Arctic Embed L V2.0 Ko

由 dragonkue 开发

这是一个从Snowflake/snowflake-arctic-embed-l-v2.0微调而来的句子转换器模型，训练数据为聚类数据集。它将句子和段落映射到一个1024维的密集向量空间，可用于语义文本相似度和语义搜索。

文本嵌入

Safetensors

支持多种语言开源协议:Apache-2.0 #韩英双语检索 #1024维高精度向量 #语义相似度计算

下载量 4,964

发布时间 : 3/7/2025

模型简介

该模型进一步使用韩语数据进行了训练，以提升其在韩语检索任务中的表现。这是一个强大的模型，在多个检索基准测试中达到了最先进的性能(SOTA)。

模型特点

多语言支持

特别针对韩语和英语进行了优化，提升了在韩语检索任务中的表现。

高性能

在多个检索基准测试中达到了最先进的性能(SOTA)。

密集向量空间映射

将句子和段落映射到一个1024维的密集向量空间，适用于语义文本相似度和语义搜索。

模型能力

语义文本相似度计算

语义搜索

多语言文本嵌入

使用案例

信息检索

韩语文档检索

在韩语文档库中进行高效的语义搜索。

在韩语检索任务中表现优异。

文本相似度

句子相似度计算

计算两个句子之间的语义相似度。

适用于多语言环境，特别是韩语和英语。

🚀 基于Snowflake/snowflake-arctic-embed-l-v2.0的句子转换器

这是一个基于 sentence-transformers 的模型，它在聚类数据集上对 Snowflake/snowflake-arctic-embed-l-v2.0 进行了微调。该模型可以将句子和段落映射到一个1024维的密集向量空间，可用于语义文本相似度计算和语义搜索。

Snowflake/snowflake-arctic-embed-l-v2.0 模型进一步使用韩语数据进行了训练，以提高其在 韩语检索任务 中的性能。它是一个强大的模型，在多个检索基准测试中达到了 最先进（SOTA）的性能。

模型图片

🚀 快速开始

本模型可以将句子和段落映射到1024维的密集向量空间，可用于语义文本相似度计算和语义搜索。

✨ 主要特性

基于 Snowflake/snowflake-arctic-embed-l-v2.0 微调，在聚类数据集上训练。
支持韩语和英语，在韩语检索任务中表现出色。
可将句子和段落映射到1024维的密集向量空间，用于语义文本相似度计算和语义搜索。
在多个检索基准测试中达到了最先进（SOTA）的性能。

📦 安装指南

首先，你需要安装 sentence-transformers 库和 xformers 库：

pip install -U sentence-transformers
pip install xformers

💻 使用示例

基础用法

使用 sentence-transformers 库加载模型并进行推理：

from sentence_transformers import SentenceTransformer

# 加载模型
# 半精度推理时请使用bf16
model_name = 'dragonkue/snowflake-arctic-embed-l-v2.0-ko'
model = SentenceTransformer(model_name)

# 定义查询和文档
queries = ['대한민국의 수도는 어디인가?', '한글을 만든 사람은 누구인가?']
documents = ['대한민국의 수도는 서울이다.', '한글은 세종대왕이 창제하였다.']

# 计算嵌入：使用 `prompt_name="query"` 对查询进行编码！
query_embeddings = model.encode(queries, prompt_name="query") 
document_embeddings = model.encode(documents)

# 计算余弦相似度分数
scores = model.similarity(query_embeddings, document_embeddings)

# 输出结果
for query, query_scores in zip(queries, scores):
    doc_score_pairs = list(zip(documents, query_scores))
    doc_score_pairs = sorted(doc_score_pairs, key=lambda x: x[1], reverse=True)
    print("Query:", query)
    for document, score in doc_score_pairs:
        print(score, document)

高级用法

使用 transformers 包加载模型并进行推理：

import torch
from transformers import AutoModel, AutoTokenizer

# 加载模型
# 半精度推理时请使用bf16
model_name = 'dragonkue/snowflake-arctic-embed-l-v2.0-ko'
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModel.from_pretrained(model_name, add_pooling_layer=False)
model.eval()

# 定义查询和文档
query_prefix = 'query: '
queries  = ['대한민국의 수도는 어디인가?', '한글을 만든 사람은 누구인가?']
queries_with_prefix = ["{}{}".format(query_prefix, i) for i in queries]
query_tokens = tokenizer(queries_with_prefix, padding=True, truncation=True, return_tensors='pt', max_length=8192)

documents = ['대한민국의 수도는 서울이다.', '한글은 세종대왕이 창제하였다.']
document_tokens = tokenizer(documents, padding=True, truncation=True, return_tensors='pt', max_length=8192)

# 计算令牌嵌入
with torch.no_grad():
    query_embeddings = model(**query_tokens)[0][:, 0]
    document_embeddings = model(**document_tokens)[0][:, 0]

# 归一化嵌入
query_embeddings = torch.nn.functional.normalize(query_embeddings, p=2, dim=1)
document_embeddings = torch.nn.functional.normalize(document_embeddings, p=2, dim=1)

scores = torch.mm(query_embeddings, document_embeddings.transpose(0, 1))

for query, query_scores in zip(queries, scores):
    doc_score_pairs = list(zip(documents, query_scores))
    doc_score_pairs = sorted(doc_score_pairs, key=lambda x: x[1], reverse=True)
    # 输出段落和分数
    print("Query:", query)
    for document, score in doc_score_pairs:
        print(score, document)

📚 详细文档

模型详情

属性	详情
模型类型	句子转换器
基础模型	Snowflake/snowflake-arctic-embed-l-v2.0
最大序列长度	8192个令牌
输出维度	1024维
相似度函数	余弦相似度
训练数据集	AI Hub数据集（包括行政文档机器阅读理解、新闻文章机器阅读理解等多个子数据集）
语言	韩语、英语

模型来源

文档：Sentence Transformers Documentation
仓库：Sentence Transformers on GitHub
Hugging Face：Sentence Transformers on Hugging Face

完整模型架构

SentenceTransformer(
  (0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: XLMRobertaModel 
  (1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Normalize()
)

评估

评估参考了KURE GitHub仓库（https://github.com/nlpai-lab/KURE）。
在 MTEB 中注册的所有 韩语检索基准测试 上进行了评估。

韩语检索基准测试

Ko-StrategyQA：一个韩语 开放域问答多跳检索数据集，从StrategyQA翻译而来。
AutoRAGRetrieval：一个 韩语文档检索数据集，通过解析五个领域（金融、公共、医疗、法律和商业）的PDF构建。
MIRACLRetrieval：一个基于维基百科的 韩语文档检索数据集。
PublicHealthQA：一个专注于 医疗和公共卫生领域 的韩语 检索数据集。
BelebeleRetrieval：一个基于FLORES-200的 韩语文档检索数据集。
MrTidyRetrieval：一个基于维基百科的 韩语文档检索数据集。
MultiLongDocRetrieval：一个涵盖多个领域的韩语 长文档检索数据集。
XPQARetrieval：一个 跨领域韩语文档检索数据集。

指标

标准指标：NDCG@10

信息检索

模型	MrTidyRetrieval	MIRACLRetrieval	XPQARetrieval	BelebeleRetrieval	PublicHealthQA	AutoRAGRetrieval	Ko-StrategyQA	平均
dragonkue/snowflake-arctic-embed-l-v2.0-ko	0.57121	0.66846	0.4436	0.95177	0.83374	0.90927	0.80498	0.740433
dragonkue/BGE-m3-ko	0.60992	0.68331	0.38131	0.95027	0.81545	0.87379	0.7959	0.729993
nlpai-lab/KURE-v1	0.59092	0.68157	0.38158	0.95019	0.81925	0.87076	0.7999	0.727739
BAAI/bge-m3	0.64708	0.70146	0.36075	0.93164	0.80412	0.83008	0.79405	0.724169
Snowflake/snowflake-arctic-embed-l-v2.0	0.59071	0.66077	0.43018	0.9271	0.81679	0.83863	0.80455	0.724104
intfloat/multilingual-e5-large	0.64211	0.66486	0.3571	0.94499	0.82534	0.81337	0.80348	0.721607
nlpai-lab/KoE5	0.58411	0.62347	0.35086	0.94251	0.83507	0.84339	0.80008	0.711356
BAAI/bge-multilingual-gemma2	0.47521	0.70315	0.37446	0.95001	0.87102	0.76535	0.79072	0.704274
jinaai/jina-embeddings-v3	0.55759	0.63716	0.41272	0.91203	0.83059	0.76104	0.79807	0.701314
intfloat/multilingual-e5-large-instruct	0.52877	0.59914	0.39712	0.936	0.84967	0.77996	0.79793	0.69837
nomic-ai/nomic-embed-text-v2-moe	0.53766	0.65913	0.36871	0.93636	0.78448	0.80682	0.76325	0.693773
intfloat/multilingual-e5-base	0.58082	0.6227	0.3607	0.92868	0.77203	0.79752	0.76355	0.689429
intfloat/e5-mistral-7b-instruct	0.52444	0.58709	0.39159	0.92403	0.88733	0.67849	0.79317	0.683734
Alibaba-NLP/gte-Qwen2-7B-instruct	0.46571	0.53375	0.37866	0.94808	0.85844	0.76682	0.8108	0.680323
Alibaba-NLP/gte-multilingual-base	0.56464	0.62697	0.30702	0.8796	0.74584	0.77108	0.75121	0.663766
openai/text-embedding-3-large	0.44728	0.56248	0.37423	0.89451	0.85617	0.76466	0.73634	0.662239
upskyy/bge-m3-korean	0.55011	0.59892	0.31695	0.8731	0.77559	0.72946	0.75277	0.6567
Salesforce/SFR-Embedding-2_R	0.40347	0.55798	0.37371	0.91747	0.8605	0.70782	0.77042	0.65591
ibm-granite/granite-embedding-278m-multilingual	nan	0.59216	0.23058	0.83231	0.77668	0.70226	0.71762	0.641935
jhgan/ko-sroberta-multitask	0.29475	0.36698	0.27961	0.81636	0.69212	0.58332	0.65097	0.526301

基准测试之外的能力

支持短语查询：除了完整句子查询外，还支持基于短语的查询。例如："What products does Samsung sell?" 或 "Samsung's products"。
处理多样化查询格式：经过训练，能够处理各种查询格式，无论措辞如何变化。例如："Tell me about Samsung."、"I'm curious about Samsung."、"What is Samsung?"。
优化Markdown表格搜索：针对Markdown表格搜索进行了优化，当文档中存在表格时，可以检索嵌入在表格中的答案。
高效聚类：无需硬负样本即可进行高效聚类。在同一批次内对样本进行聚类，通过将 Snowflake/snowflake-arctic-embed-l-v2.0 模型的嵌入截断为256维来进行高效的聚类嵌入形成。聚类方法受到以下论文的启发：
- Embedding And Clustering Your Data Can Improve Contrastive Pretraining
- CONTEXTUAL DOCUMENT EMBEDDINGS
跨领域表现出色：在不同领域表现出色。《Arctic-Embed 2.0: Multilingual Retrieval Without Compromise》论文指出：“虽然像mE5、mGTE和BGE-M3这样的模型在MIRACL上表现出色，但它们在CLEF上的性能明显弱于我们的模型和闭源产品，这表明它们可能过度拟合了MIRACL或其基于维基百科的领域。” 根据经验，Snowflake/snowflake-arctic-embed-l-v2.0 在不同领域始终优于 BGE-M3。

偏差、风险和限制

为了防止过高的GPU使用成本，模型在训练时的最大序列长度为 1300 个令牌。因此，在像 MultiLongDocRetrieval (MLDR) 这样的基准测试中，其性能可能会下降。

之前的模型 BGE-m3-ko 在训练时的令牌长度为 1024，这限制了它在MLDR基准测试中的性能。

对于 snowflake-arctic-embed-l-v2.0-ko，如果文档长度超过 1300 个令牌或约 2500 个字符，建议考虑以下模型：

模型	MultiLongDocRetrieval
Alibaba-NLP/gte-multilingual-base/Alibaba-NLP/gte-multilingual-base	0.48402
nlpai-lab/KURE-v1/nlpai-lab_KURE-v1	0.47528
dragonkue/snowflake-arctic-embed-l-v2.0-ko	0.4459
BAAI/bge-m3/BAAI_bge-m3	0.43011
Snowflake/snowflake-arctic-embed-l-v2.0	0.40401
dragonkue/BGE-m3-ko/dragonkue_BGE-m3-ko	0.40135
openai/text-embedding-3-large	0.31108
BAAI/bge-multilingual-gemma2	0.31021
nlpai-lab/KoE5	0.30869
jinaai/jina-embeddings-v3/jinaai__jina-embeddings-v3	0.30512
Alibaba-NLP/gte-Qwen2-7B-instruct/Alibaba-NLP__gte-Qwen2-7B-instruct	0.30313
intfloat/multilingual-e5-large-instruct/intfloat__multilingual-e5-large-instruct	0.27973
nomic-ai/nomic-embed-text-v2-moe	0.27135
intfloat/e5-mistral-7b-instruct/intfloat__e5-mistral-7b-instruct	0.2583
intfloat/multilingual-e5-large/intfloat__multilingual-e5-large	0.24596
Salesforce/SFR-Embedding-2_R/Salesforce__SFR-Embedding-2_R	0.24346
intfloat/multilingual-e5-base/intfloat__multilingual-e5-base	0.23766
upskyy/bge-m3-korean/upskyy__bge-m3-korean	0.21968
ibm-granite/granite-embedding-278m-multilingual/ibm-granite__granite-embedding-278m-multilingual	0.20781
jhgan/ko-sroberta-multitask/jhgan__ko-sroberta-multitask	0.20416

训练详情

损失函数：CachedGISTEmbedLoss，使用以下参数：

训练超参数

非默认超参数

eval_strategy: steps
per_device_train_batch_size: 20000
per_device_eval_batch_size: 4096
learning_rate: 2e-05
num_train_epochs: 2
lr_scheduler_type: warmup_stable_decay
lr_scheduler_kwargs: {'num_decay_steps': 160}
warmup_ratio: 0.05
bf16: True
batch_sampler: no_duplicates

所有超参数

点击展开

overwrite_output_dir: False
do_predict: False
eval_strategy: steps
prediction_loss_only: True
per_device_train_batch_size: 10000
per_device_eval_batch_size: 4096
per_gpu_train_batch_size: None
per_gpu_eval_batch_size: None
gradient_accumulation_steps: 1
eval_accumulation_steps: None
torch_empty_cache_steps: None
learning_rate: 2e-05
weight_decay: 0.0
adam_beta1: 0.9
adam_beta2: 0.999
adam_epsilon: 1e-08
max_grad_norm: 1.0
num_train_epochs: 2
max_steps: -1
lr_scheduler_type: warmup_stable_decay
lr_scheduler_kwargs: {'num_decay_steps': 160}
warmup_ratio: 0.05
warmup_steps: 0
log_level: passive
log_level_replica: warning
log_on_each_node: True
logging_nan_inf_filter: True
save_safetensors: True
save_on_each_node: False
save_only_model: False
restore_callback_states_from_checkpoint: False
no_cuda: False
use_cpu: False
use_mps_device: False
seed: 42
data_seed: None
jit_mode_eval: False
use_ipex: False
bf16: True
fp16: False
fp16_opt_level: O1
half_precision_backend: auto
bf16_full_eval: False
fp16_full_eval: False
tf32: None
local_rank: 0
ddp_backend: None
tpu_num_cores: None
tpu_metrics_debug: False
debug: []
dataloader_drop_last: True
dataloader_num_workers: 0
dataloader_prefetch_factor: None
past_index: -1
disable_tqdm: False
remove_unused_columns: True
label_names: None
load_best_model_at_end: False
ignore_data_skip: False
fsdp: []
fsdp_min_num_params: 0
fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
fsdp_transformer_layer_cls_to_wrap: None
accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
deepspeed: None
label_smoothing_factor: 0.0
optim: adamw_torch
optim_args: None
adafactor: False
group_by_length: False
length_column_name: length
ddp_find_unused_parameters: None
ddp_bucket_cap_mb: None
ddp_broadcast_buffers: False
dataloader_pin_memory: True
dataloader_persistent_workers: False
skip_memory_metrics: True
use_legacy_prediction_loop: False
push_to_hub: False
resume_from_checkpoint: None
hub_model_id: None
hub_strategy: every_save
hub_private_repo: None
hub_always_push: False
gradient_checkpointing: False
gradient_checkpointing_kwargs: None
include_inputs_for_metrics: False
include_for_metrics: []
eval_do_concat_batches: True
fp16_backend: auto
push_to_hub_model_id: None
push_to_hub_organization: None
mp_parameters:
auto_find_batch_size: False
full_determinism: False
torchdynamo: None
ray_scope: last
ddp_timeout: 1800
torch_compile: False
torch_compile_backend: None
torch_compile_mode: None
dispatch_batches: None
split_batches: None
include_tokens_per_second: False
include_num_input_tokens_seen: False
neftune_noise_alpha: None
optim_target_modules: None
batch_eval_metrics: False
eval_on_start: False
use_liger_kernel: False
eval_use_gather_object: False
average_tokens_across_devices: False
prompts: None
batch_sampler: no_duplicates
multi_dataset_batch_sampler: proportional

框架版本

Python: 3.10.12
Sentence Transformers: 3.4.1
Transformers: 4.49.0
PyTorch: 2.6.0+cu124
Accelerate: 1.4.0
Datasets: 3.3.2
Tokenizers: 0.21.0

🔧 技术细节

模型基于 Snowflake/snowflake-arctic-embed-l-v2.0 微调，在聚类数据集上训练。
使用 CachedGISTEmbedLoss 损失函数进行训练。
训练时使用了特定的超参数，如 eval_strategy、per_device_train_batch_size 等。
模型架构包括 Transformer、Pooling 和 Normalize 层。
支持韩语和英语，在韩语检索任务中表现出色。
在多个检索基准测试中达到了最先进（SOTA）的性能。

📄 许可证

Arctic采用 Apache 2.0 许可证。发布的模型可以免费用于商业目的。

📚 引用

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084"
}

KURE

@misc{KURE,
  publisher = {Youngjoon Jang, Junyoung Son, Taemin Lee},
  year = {2024},
  url = {https://github.com/nlpai-lab/KURE}
}

Arctic-Embed 2.0

@article{yu2024arcticembed,
  title = "Arctic-Embed 2.0: Multilingual Retrieval Without Compromise",
  author = "Puxuan Yu, Luke Merrick, Gaurav Nuti, Daniel Campos",
  journal = "arXiv preprint arXiv:2412.04506",
  year = "2024",
  url = "https://arxiv.org/abs/2412.04506"
}

Embedding And Clustering Your Data Can Improve Contrastive Pretraining

@article{merrick2024embedding,
  title = "Embedding And Clustering Your Data Can Improve Contrastive Pretraining",
  author = "Luke Merrick",
  journal = "arXiv preprint arXiv:2407.18887",
  year = "2024",
  url = "https://arxiv.org/abs/2407.18887"
}

Contextual Document Embeddings

@article{morris2024contextual,
  title = "Contextual Document Embeddings",
  author = "John X. Morris, Alexander M. Rush",
  journal = "arXiv preprint arXiv:2410.02525",
  year = "2024",
  url = "https://arxiv.org/abs/2410.02525"
}