许可证: apache-2.0
语言:
- 波斯语
库名称: sentence-transformers
管道标签: 句子相似度
标签:
- sentence-transformers
- 句子相似度
- 特征提取
- 损失函数: CachedMultipleNegativesRankingLoss
示例:
-
源句: 鹤是一种长腿长颈的候鸟。
对比句:
- 鹤凭借高挑的身材和宽阔的翅膀,是最美丽的候鸟之一。
- 鹤是腿短的小型鸟类,不会迁徙。
- 伊朗再次成功夺得金牌。
-
源句: 德黑兰冬季空气污染严重。
对比句:
- 德黑兰冬季空气质量良好。
- 马什哈德和德黑兰是伊朗最拥挤的城市。
- 冬季德黑兰的空气并不洁净。
-
源句: 学习外语能增加就业机会。
对比句:
- 掌握多门语言可提高在国际公司的就业几率。
- 掌握外语对职业成功没有影响。
- 南极气温创下50年来新低。
-
源句: 旅行能拓宽文化视野。
对比句:
- 探访不同国家有助于更好地理解文化多样性。
- 旅行对个人的文化视野毫无影响。
- 南极气温创下50年来新低。
基础模型:
句子转换器
这是一个经过训练的sentence-transformers模型。它能将句子和段落映射到1024维的密集向量空间,可用于语义文本相似性、语义搜索、复述挖掘、文本分类、聚类等任务。
模型详情
模型描述
- 模型类型: 句子转换器
- 基础模型: TookaBERT-Large
- 最大序列长度: 512个标记
- 输出维度: 1024个标记
- 相似度函数: 余弦相似度
- 语言: 波斯语
使用方法
直接使用(Sentence Transformers)
首先安装Sentence Transformers库:
pip install -U sentence-transformers
然后加载此模型并运行推理:
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("PartAI/Tooka-SBERT")
sentences = [
'鹤是一种长腿长颈的候鸟。',
'鹤凭借高挑的身材和宽阔的翅膀,是最美丽的候鸟之一。',
'鹤是腿短的小型鸟类,不会迁徙。'
]
embeddings = model.encode(sentences)
print(embeddings.shape)
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
引用
BibTeX
Sentence Transformers
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
CachedMultipleNegativesRankingLoss
@misc{gao2021scaling,
title={Scaling Deep Contrastive Learning Batch Size under Memory Limited Setup},
author={Luyu Gao and Yunyi Zhang and Jiawei Han and Jamie Callan},
year={2021},
eprint={2101.06983},
archivePrefix={arXiv},
primaryClass={cs.LG}
}