语言:
标签:
- 句子转换器
- 句子相似度
- 特征提取
- 从训练器生成
- 数据集大小:13930944
- 损失函数:均方误差损失
基础模型: sentence-transformers/paraphrase-MiniLM-L6-v2
小部件示例:
数据集:
- sentence-transformers/parallel-sentences-talks
任务类型: 句子相似度
库名称: sentence-transformers
评估指标:
- 负均方误差
- 源到目标准确率
- 目标到源准确率
- 平均准确率
- 余弦皮尔逊系数
- 余弦斯皮尔曼系数
模型索引:
- 名称: 基于sentence-transformers/paraphrase-MiniLM-L6-v2的SentenceTransformer
结果:
- 任务类型: 知识蒸馏
数据集: 英语-葡萄牙语(巴西)
指标: 负均方误差 -4.0617
- 任务类型: 翻译
数据集: 英语-葡萄牙语(巴西)
指标:
- 源到目标准确率 98.59%
- 目标到源准确率 98.08%
- 平均准确率 98.34%
- 任务类型: 知识蒸馏
数据集: 英语-西班牙语
指标: 负均方误差 -4.2473
- 任务类型: 翻译
数据集: 英语-西班牙语
指标:
- 源到目标准确率 90.80%
- 目标到源准确率 89.80%
- 平均准确率 90.30%
- 任务类型: 语义相似度
数据集: sts17 西班牙语-英语测试集
指标:
- 余弦皮尔逊系数 0.7714
- 余弦斯皮尔曼系数 0.7862
基于sentence-transformers/paraphrase-MiniLM-L6-v2的SentenceTransformer模型
这是一个基于sentence-transformers框架,从sentence-transformers/paraphrase-MiniLM-L6-v2微调而来的模型,训练数据包括英语-葡萄牙语(巴西)、英语-西班牙语和英语-葡萄牙语数据集。该模型将句子和段落映射到384维稠密向量空间,可用于语义文本相似度、语义搜索、复述挖掘、文本分类、聚类等任务。
模型详情
模型描述
完整模型架构
SentenceTransformer(
(0): Transformer({'max_seq_length': 128, 'do_lower_case': False}) with Transformer model: BertModel
(1): Pooling({'word_embedding_dimension': 384, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
(2): Normalize()
)
使用方式
直接使用(Sentence Transformers)
首先安装Sentence Transformers库:
pip install -U sentence-transformers
然后加载模型并进行推理:
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("jvanhoof/all-MiniLM-L6-multilingual-v2-en-es-pt-pt-br")
sentences = [
'我们现在称这个地方为家',
'我们住那里。现在这里是我们的家',
'比想象中更容易'
]
embeddings = model.encode(sentences)
print(embeddings.shape)
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
评估结果
知识蒸馏
指标 |
英语-葡萄牙语(巴西) |
英语-西班牙语 |
英语-葡萄牙语 |
负均方误差 |
-4.0617 |
-4.2473 |
-4.2555 |
翻译任务
指标 |
英语-葡萄牙语(巴西) |
英语-西班牙语 |
英语-葡萄牙语 |
源到目标准确率 |
98.59% |
90.80% |
89.51% |
目标到源准确率 |
98.08% |
89.80% |
88.24% |
平均准确率 |
98.34% |
90.30% |
88.88% |
语义相似度
指标 |
值 |
余弦皮尔逊系数 |
0.7714 |
余弦斯皮尔曼系数 |
0.7862 |
训练详情
训练数据集
英语-葡萄牙语(巴西)
英语-西班牙语
- 数据集: 英语-西班牙语
- 样本数: 6,889,042个训练样本
- 列:
英语
, 非英语
, 和 标签
- 损失函数:
MSELoss
英语-葡萄牙语
- 数据集: 英语-葡萄牙语
- 样本数: 6,636,095个训练样本
- 列:
英语
, 非英语
, 和 标签
- 损失函数:
MSELoss
训练超参数
非默认超参数
eval_strategy
: 按步评估
per_device_train_batch_size
: 128
per_device_eval_batch_size
: 128
gradient_accumulation_steps
: 8
num_train_epochs
: 6
warmup_ratio
: 0.15
bf16
: True
引用
BibTeX格式
Sentence Transformers
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
MSELoss
@inproceedings{reimers-2020-multilingual-sentence-bert,
title = "Making Monolingual Sentence Embeddings Multilingual using Knowledge Distillation",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2020",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/2004.09813",
}