语言:
- 英语
许可证: apache-2.0
标签:
- 句子转换器
- 句子相似度
- 特征提取
- 训练生成
- 数据集大小:13842
- 损失函数:多重负例排序损失
基础模型: microsoft/mpnet-base
演示示例:
- 源句: "一个男人一手拿着咖啡杯,另一手拿着马桶刷站在马桶前。"
对比句:
- "指挥家和乐团没有坐着。"
- "一个男人站在浴室里。"
- "一个男人正在尝试冲泡咖啡。"
- 源句: "两名穿黄色夹克和黑色裤子的男子获得了奖牌。"
对比句:
- "这些男子在某个时刻获得了奖励。"
- "初始的净规模效益,无论是否有薪酬溢价,都是积极的。"
- "男人们穿着纯红色夹克和蓝色裤子。"
- 源句: "连锁餐厅内部:好莱坞星球餐厅,装饰着各种电影纪念品。"
对比句:
- "一个女人拿着某样东西。"
- "一家餐厅的内部。"
- "一个摆放着新银色机器的洗衣房内部。"
- 源句: "两个孩子在人行道上奔跑,靠近建筑物。"
对比句:
- "孩子们在户外。"
- "某些房间外面有阳台。"
- "孩子们在室内。"
- 源句: "林荫大道两旁树木环绕,距离海边不到三个街区。"
对比句:
- "大海离这里甚至不到三条街。"
- "孩子把头从墙上的一个洞里探出来。"
- "要到达海边,你需要沿着街道走两英里。"
数据集:
- mertcobanov/all-nli-triplets-turkish
任务类型: 句子相似度
库名称: sentence-transformers
评估指标:
- 余弦准确率
模型索引:
- 名称: 基于AllNLI-turkish三元组训练的MPNet基础模型
结果:
- 任务:
类型: 三元组
名称: 三元组
数据集:
名称: all nli dev turkish
类型: all-nli-dev-turkish
指标:
- 类型: 余弦准确率
值: 0.7422539489671932
名称: 余弦准确率
- 任务:
类型: 三元组
名称: 三元组
数据集:
名称: all nli test turkish
类型: all-nli-test-turkish
指标:
- 类型: 余弦准确率
值: 0.7503404448479346
名称: 余弦准确率
基于AllNLI-turkish三元组训练的MPNet基础模型
这是一个基于microsoft/mpnet-base微调的sentence-transformers模型,训练数据来自all-nli-triplets-turkish数据集。该模型将句子和段落映射到768维稠密向量空间,可用于语义文本相似度、语义搜索、复述挖掘、文本分类、聚类等任务。
模型详情
模型描述
- 模型类型: 句子转换器
- 基础模型: microsoft/mpnet-base
- 最大序列长度: 512个标记
- 输出维度: 768维
- 相似度函数: 余弦相似度
- 训练数据集:
- 语言: 英语
- 许可证: apache-2.0
模型来源
完整模型架构
SentenceTransformer(
(0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: MPNetModel
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)
使用方式
直接使用(Sentence Transformers)
首先安装Sentence Transformers库:
pip install -U sentence-transformers
然后可以加载该模型并运行推理:
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("mertcobanov/mpnet-base-all-nli-triplet-turkish-v3")
sentences = [
'林荫大道两旁树木环绕,距离海边不到三个街区。',
'大海离这里甚至不到三条街。',
'要到达海边,你需要沿着街道走两英里。',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
评估
评估指标
三元组
指标 |
all-nli-dev-turkish |
all-nli-test-turkish |
余弦准确率 |
0.7423 |
0.7503 |
训练详情
训练数据集
all-nli-triplets-turkish
评估数据集
all-nli-triplets-turkish
- 数据集: all-nli-triplets-turkish 版本 bff203b
- 大小: 6,584个评估样本
- 列:
anchor_translated
, positive_translated
和 negative_translated
- 基于前1000个样本的近似统计:
|
anchor_translated |
positive_translated |
negative_translated |
类型 |
字符串 |
字符串 |
字符串 |
详情 |
- 最小: 5个标记
- 平均: 42.62个标记
- 最大: 192个标记
|
- 最小: 5个标记
- 平均: 22.58个标记
- 最大: 77个标记
|
- 最小: 5个标记
- 平均: 22.07个标记
- 最大: 65个标记
|
- 样本:
anchor_translated |
positive_translated |
negative_translated |
此外,这些消费税与其他税收一样,是通过政府行使强制支付权力来确定的。 |
政府的支付强制决定了消费税的计算方式。 |
消费税是通用规则的一个例外,实际上是根据GDP份额确定的。 |
一位穿灰色运动衫的艺术家正在创作一幅色彩鲜艳的小镇画作。 |
一位画家穿着灰色衣服在画一个小镇的图画。 |
一个人拿着棒球棒,准备接球。 |
不可能。 |
做不到。 |
完全可能。 |
训练超参数
非默认超参数
eval_strategy
: 按步评估
per_device_train_batch_size
: 16
per_device_eval_batch_size
: 16
learning_rate
: 2e-05
num_train_epochs
: 10
warmup_ratio
: 0.1
fp16
: 启用
batch_sampler
: 无重复
框架版本
- Python: 3.10.14
- Sentence Transformers: 3.3.1
- Transformers: 4.46.3
- PyTorch: 2.3.0
- Accelerate: 1.1.1
- Datasets: 3.1.0
- Tokenizers: 0.20.3
引用
BibTeX
Sentence Transformers
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
MultipleNegativesRankingLoss
@misc{henderson2017efficient,
title={Efficient Natural Language Response Suggestion for Smart Reply},
author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
year={2017},
eprint={1705.00652},
archivePrefix={arXiv},
primaryClass={cs.CL}
}