col1-210M-EuroBERT开源模型 - 免费实现西语和英语语义文本相似度计算

首页

Col1 210M EuroBERT

由 fjmgAI 开发

这是一个基于EuroBERT-210m微调的ColBERT模型，专门用于西班牙语和英语的语义文本相似度计算。

文本嵌入

Safetensors

支持多种语言开源协议:Apache-2.0 #西班牙语语义搜索 #高精度相似度计算 #词级MaxSim检索

下载量 16

发布时间 : 4/3/2025

模型简介

该模型使用PyLate库在rag-comprehensive-triplets数据集上进行了对比训练，能够将句子和段落映射为128维密集向量序列，适用于语义搜索和文档检索任务。

模型特点

高效语义搜索

使用MaxSim操作符在词级别比较嵌入，提供高效的语义搜索能力

西班牙语优化

专门针对西班牙语应用进行了优化和过滤

高准确率

在评估数据集上达到了0.9848的准确率

模型能力

语义文本相似度计算

文档检索

问答系统支持

使用案例

信息检索

文档相似度匹配

查找与查询句子最相关的文档

高准确率的匹配结果

问答系统

答案检索

从知识库中检索最相关的答案

基于语义相似度的高质量答案

🚀 fjmgAI/col1 - 210M - EuroBERT模型

fjmgAI/col1-210M-EuroBERT 是一个基于 EuroBERT/EuroBERT - 210m 微调的模型，可将句子和段落映射为128维的密集向量序列，适用于语义文本相似度任务，在西班牙语应用的高效语义搜索场景中表现出色。

🚀 快速开始

安装依赖

首先，你需要安装 PyLate 库：

pip install -U pylate

计算相似度

以下是一个使用该模型计算句子相似度的示例代码：

import torch
from pylate import models

# Load the ColBERT model 
model = models.ColBERT("fjmgAI/col1-210M-EuroBERT", trust_remote_code=True)

# Move the model to GPU if available, otherwise use CPU
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model.to(device)

# Example data for similarity comparison
query = "¿Cuál es la capital de España?"  # Query sentence
positive_doc = "La capital de España es Madrid."  # Relevant document
negative_doc = "Florida es un estado en los Estados Unidos."  # Irrelevant document
sentences = [query, positive_doc, negative_doc]  # Combine all texts

# Tokenize the input sentences using ColBERT's tokenizer
inputs = model.tokenize(sentences)

# Move all input tensors to the same device as the model (GPU/CPU)
inputs = {key: value.to(device) for key, value in inputs.items()}

# Generate token embeddings (no gradients needed for inference)
with torch.no_grad():
    embeddings_dict = model(inputs)  
    embeddings = embeddings_dict['token_embeddings']

# Define ColBERT's MaxSim similarity function
def colbert_similarity(query_emb, doc_emb):
    """
    Computes ColBERT-style similarity between query and document embeddings.
    Uses maximum similarity (MaxSim) between individual tokens.
    
    Args:
        query_emb: [query_tokens, embedding_dim]
        doc_emb: [doc_tokens, embedding_dim]
    
    Returns:
        Normalized similarity score
    """
    # Compute dot product between all token pairs
    similarity_matrix = torch.matmul(query_emb, doc_emb.T)  
    
    # Get maximum similarity for each query token (MaxSim)
    max_similarities = similarity_matrix.max(dim=1)[0]
    
    # Return average of maximum similarities (normalized by query length)
    return max_similarities.sum() / query_emb.shape[0]

# Extract embeddings for each text
query_emb = embeddings[0]  
positive_emb = embeddings[1]  
negative_emb = embeddings[2]

# Compute similarity scores
positive_score = colbert_similarity(query_emb, positive_emb)
negative_score = colbert_similarity(query_emb, negative_emb)

print(f"Similarity with positive document: {positive_score.item():.4f}")
print(f"Similarity with negative document: {negative_score.item():.4f}")

✨ 主要特性

基于 EuroBERT/EuroBERT - 210m 进行微调，提升了模型性能。
使用 PyLate 进行微调，在 rag - comprehensive - triplets 数据集上进行对比训练。
能够将句子和段落映射为128维的密集向量，适用于语义文本相似度任务。
采用 MaxSim 运算符，可在标记级别比较嵌入，适用于问答和文档检索等西班牙语应用。

📦 安装指南

安装所需的库：

pip install -U pylate

📚 详细文档

基础模型

EuroBERT/EuroBERT - 210m

微调方法

使用 PyLate 进行微调，在 [rag - comprehensive - triplets](https://huggingface.co/datasets/baconnier/rag - comprehensive - triplets) 数据集上进行对比训练。

数据集

[baconnier/rag - comprehensive - triplets](https://huggingface.co/datasets/baconnier/rag - comprehensive - triplets) 该数据集经过筛选，包含303,000个西班牙语示例，专为 rag - comprehensive - triplets 任务设计。

微调细节

采用 对比训练（Contrastive Training） 方法进行训练。
使用 pylate.evaluation.colbert_triplet.ColBERTTripletEvaluator 进行评估。

评估指标

属性	详情
准确率	0.9848

框架版本

属性	详情
Python	3.10.12
Sentence Transformers	3.4.1
PyLate	1.1.7
Transformers	4.48.2
PyTorch	2.5.1+cu121
Accelerate	1.2.1
Datasets	3.3.1
Tokenizers	0.21.0

🔧 技术细节

该模型基于 EuroBERT/EuroBERT - 210m 进行微调，使用 PyLate 库在 rag - comprehensive - triplets 数据集上进行对比训练。通过将句子和段落映射为128维的密集向量，利用 MaxSim 运算符在标记级别比较嵌入，实现语义文本相似度计算。