语言:
- 波斯语
库名称: sentence-transformers
管道标签: 句子相似度
标签:
- sentence-transformers
- 句子相似度
- 特征提取
- 损失函数: CachedMultipleNegativesRankingLoss
小部件:
- 源句: 鹤是一种长腿长颈的候鸟。
对比句:
- 鹤拥有修长身形和宽阔翅膀,是最美丽的候鸟之一。
- 鹤是短腿不迁徙的小型鸟类。
- 伊朗再次成功夺得金牌。
- 源句: 德黑兰冬季空气污染严重。
对比句:
- 德黑兰冬季空气质量优良。
- 马什哈德和德黑兰是伊朗最拥挤的城市。
- 冬季德黑兰空气不清新。
- 源句: 学习外语能增加就业机会。
对比句:
- 掌握多门语言可提高在国际公司的录用几率。
- 掌握外语对职业成功没有影响。
- 南极气温创下50年来新低。
- 源句: 旅行能拓宽文化视野。
对比句:
- 造访不同国家有助于更好理解文化多样性。
- 旅行对个人文化视野毫无影响。
- 南极气温创下50年来新低。
基础模型:
- PartAI/TookaBERT-Large
图卡-SBERT-V2-大模型
本模型是专为语义文本相似度和嵌入任务训练的Sentence Transformers模型。它能将句子和段落映射到密集向量空间,使语义相近的文本在空间中彼此靠近。
该模型提供两种规格:小型版和大型版
使用指南
直接使用(Sentence Transformers)
首先安装Sentence Transformers库:
pip install sentence-transformers==3.4.1
然后加载模型并运行推理:
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("PartAI/Tooka-SBERT-V2-Large")
sentences = [
'鹤是一种长腿长颈的候鸟。',
'鹤拥有修长身形和宽阔翅膀,是最美丽的候鸟之一。',
'鹤是短腿不迁徙的小型鸟类。'
]
embeddings = model.encode(sentences)
print(embeddings.shape)
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
🛠️ 训练详情
训练分为两个阶段:
- 预训练:使用Targoman新闻数据集
- 微调:使用多个合成数据集
第一阶段:预训练
- 采用非对称结构
- 输入格式:
- 损失函数:
CachedMultipleNegativesRankingLoss
第二阶段:微调
- 损失函数:
CachedMultipleNegativesRankingLoss
CoSENTLoss
- 应用于多个合成数据集
📊 性能评估
我们在PTEB基准测试上评估模型。本模型在PTEB任务上的平均表现优于mE5-Base。
对于检索和重排序任务,采用相同非对称结构:
PTEB中的任务专用数据集
-
配对分类:
-
分类:
- MassiveIntent分类
- MassiveScenario分类
- 多语言情感分类
- 波斯食品情感分类
-
检索:
- MIRACL检索
- NeuCLIR2023检索
- 维基百科多语言检索
-
重排序:
引用文献
BibTeX格式
Sentence Transformers
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: 基于孪生BERT网络的句子嵌入",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "2019年自然语言处理实证方法会议论文集",
month = "11",
year = "2019",
publisher = "计算语言学协会",
url = "https://arxiv.org/abs/1908.10084",
}
CachedMultipleNegativesRankingLoss
@misc{gao2021scaling,
title={内存受限环境下扩展深度对比学习的批量大小},
author={高璐瑜, 张云逸, 韩佳伟, Jamie Callan},
year={2021},
eprint={2101.06983},
archivePrefix={arXiv},
primaryClass={cs.LG}
}