Slovakbert Skquad Mnlr
模型简介
模型特点
模型能力
使用案例
语言: [] 库名称: sentence-transformers 标签:
-
sentence-transformers
-
句子相似度
-
特征提取
-
训练生成
-
数据集大小:65699
-
损失函数:MultipleNegativesRankingLoss 基础模型: gerulata/slovakbert 数据集: [] 小部件:
-
源句: 特伦钦市有两条铁路穿过——120号布拉迪斯拉发-日利纳线和143号特伦钦-希诺拉尼线。目前正在进行城市铁路通道现代化改造,2017年新铁路桥投入使用,由于旧桥让位新桥,新建了夏季游泳池。为拆迁居民,市政府在新开辟的Slivková和Šafránová街道上建造了替代住宅。特伦钦火车站的改造项目也已准备就绪,将与汽车站改造同步实施,建成直接连接火车站的现代化汽车总站。 句子:
- 吉多尼姆组织成立于哪一年?
- 有多少条铁路穿过特伦钦市?
- 多少罗马士兵在特伦钦与夸迪人作战?
-
源句: 圣像屏由四排组成,共102幅圣像。圣像屏框架大约来自18世纪下半叶至19世纪初。根据创作时期和风格特征,圣像分为三组。最古老的两幅圣像(主变容和圣母庇护)来自17世纪末,是北部地区圣像画的典型代表。圣像屏底部大部分由第二组圣像构成,创作于18世纪下半叶。位于顶部三排的圣像属于第三组,可追溯至18世纪前三分之一时期。 句子:
- 基日岛最古老的两幅圣像来自哪个岛屿?
- 基日岛最古老的两幅圣像来自哪个世纪?
- 扬·安东尼·巴塔受到了什么惩罚?
-
源句: 19世纪初以所谓"游击战争"(西班牙语guerilla)为标志,当地居民与加的斯省周边城市联合抵抗占领半岛的法国军队。土地没收政策也未能赢得民心。农民因此试图摆脱不利的经济处境,加入了当时在省内兴起的社会运动。
如今的塞特尼尔,在克服了20世纪下半叶的移民问题后,继续在传统价值观中发展。主要依靠农业和旅游业。以其独特建筑、壮观环境和特色节日著称,成为加的斯省最具吸引力的地方之一。 句子:
- 在塞特尼尔德拉斯博德加斯村附近洞穴发现的物品证明了什么?
- 西班牙塞特尼尔德拉斯博德加斯镇以什么著称?
- 高中生如何提交数学奥林匹克竞赛第一轮答卷?
-
源句: 1926-1928年间鞋类出口增长,巴塔公司控制了超过一半的捷克斯洛伐克出口。公司引入了亨利·福特工厂使用的流水线生产,劳动生产率提高75%,员工增加35%,公司净营业额达19亿战前克朗。1928年底工厂建筑群达30栋,集团持续扩张,巴塔还涉足其他经济领域(橡胶、化工、纺织、木材等工业)。1931年巴塔在兹林、奥特罗科维采、特热比奇、博沙尼和新扎姆基生产。1931年家族企业改制为股份公司,注册资本1.35亿克朗。此前早已在全球设立子公司,德国、英国、荷兰、波兰等多国工厂相继建立。创建了一系列教育培训机构(巴塔工作学校),兹林成立了专门拍摄鞋类产品广告的电影工作室,后发展为著名的库德洛夫电影制片厂。 句子:
- 斯洛伐克数学家拉迪斯拉夫·福多尔在哪几年担任校长职务?
- 托马斯·巴塔发生事故时乘坐的航班目的地是哪里?
- 巴塔后来还涉足哪些其他工业领域?
-
源句: 第一座横跨金角湾的桥梁由查士丁尼一世皇帝下令建造。1502年苏丹巴耶济德二世发起新桥设计竞赛,达·芬奇和米开朗基罗都曾参赛,但最终方案未能实施。1863年建成第二座木桥,1875年被法国建造者建造的铁桥取代。德国人1912年建造的第四座桥梁一直使用至1992年被大火烧毁。后决定由土耳其STFA集团建造现役桥梁。 句子:
- 横跨金角湾的第二座木桥建于哪一年?
- 阿莱克修斯与两位兄长在伊萨克一世退位和父亲去世后在哪里任职?
- 厄立特里亚的平均寿命是多少? 管道标签: 句子相似度
基于gerulata/slovakbert的SentenceTransformer模型
模型来源
- 代码库: 模型训练与评估脚本
模型详情
模型描述
- 模型类型: 句子转换器
- 基础模型: gerulata/slovakbert
- 最大序列长度: 300个标记
- 输出维度: 768个标记
- 相似度函数: 余弦相似度
完整模型架构
SentenceTransformer(
(0): Transformer({'max_seq_length': 300, 'do_lower_case': False}) with Transformer model: RobertaModel
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)
使用方式
直接使用(Sentence Transformers)
首先安装Sentence Transformers库:
pip install -U sentence-transformers
然后加载模型并进行推理:
from sentence_transformers import SentenceTransformer
# 从🤗 Hub下载
model = SentenceTransformer("sentence_transformers_model_id")
# 运行推理
sentences = [
'第一座横跨金角湾的桥梁由查士丁尼一世皇帝下令建造。1502年苏丹巴耶济德二世发起新桥设计竞赛,达·芬奇和米开朗基罗都曾参赛,但最终方案未能实施。1863年建成第二座木桥,1875年被法国建造者建造的铁桥取代。德国人1912年建造的第四座桥梁一直使用至1992年被大火烧毁。后决定由土耳其STFA集团建造现役桥梁。',
'横跨金角湾的第二座木桥建于哪一年?',
'厄立特里亚的平均寿命是多少?',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]
# 获取嵌入向量的相似度分数
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
训练详情
训练数据集
未命名数据集
- 规模: 65,699个训练样本
- 列:
sentence_0
,sentence_1
, 和sentence_2
- 基于前1000个样本的近似统计:
sentence_0 sentence_1 sentence_2 类型 字符串 字符串 字符串 详情 - 最小: 99个标记
- 平均: 185.5个标记
- 最大: 300个标记
- 最小: 6个标记
- 平均: 14.74个标记
- 最大: 34个标记
- 最小: 7个标记
- 平均: 15.05个标记
- 最大: 34个标记
- 样本:
sentence_0 sentence_1 sentence_2 在尼特拉读完高中后继续学习哲学。1951年非法经奥地利移民德国,在圣奥古斯丁完成神学研究。1952年被任命为神父,次年作为传教士前往巴西贝洛奥里藏特市。约瑟夫·菲卢斯神父在该国服务长达46年。他学习了葡萄牙语及该国历史文化。后在三河市、里约热内卢、圣卡萨、茹伊斯迪福拉、热基蒂尼奥尼亚河谷和伽马等地服务。75岁时仍在贝洛奥里藏特大型医院服务,并安葬于此。
罗马天主教传教士约瑟夫·菲卢斯在哪一年被任命为神父?
罗马天主教传教士约瑟夫·菲卢斯在哪一年未被任命为神父?
在尼特拉读完高中后继续学习哲学。1951年非法经奥地利移民德国,在圣奥古斯丁完成神学研究。1952年被任命为神父,次年作为传教士前往巴西贝洛奥里藏特市。约瑟夫·菲卢斯神父在该国服务长达46年。他学习了葡萄牙语及该国历史文化。后在三河市、里约热内卢、圣卡萨、茹伊斯迪福拉、热基蒂尼奥尼亚河谷和伽马等地服务。75岁时仍在贝洛奥里藏特大型医院服务,并安葬于此。
罗马天主教传教士约瑟夫·菲卢斯1951年移民去了哪里?
罗马天主教传教士约瑟夫·菲卢斯2001年移民去了哪里?
在尼特拉读完高中后继续学习哲学。1951年非法经奥地利移民德国,在圣奥古斯丁完成神学研究。1952年被任命为神父,次年作为传教士前往巴西贝洛奥里藏特市。约瑟夫·菲卢斯神父在该国服务长达46年。他学习了葡萄牙语及该国历史文化。后在三河市、里约热内卢、圣卡萨、茹伊斯迪福拉、热基蒂尼奥尼亚河谷和伽马等地服务。75岁时仍在贝洛奥里藏特大型医院服务,并安葬于此。
罗马天主教传教士约瑟夫·菲卢斯在哪里学习哲学?
罗马天主教传教士约瑟夫·菲卢斯在哪里学习医学?
- 损失函数:
MultipleNegativesRankingLoss
参数:{ "scale": 20.0, "similarity_fct": "cos_sim" }
训练超参数
非默认超参数
per_device_train_batch_size
: 16per_device_eval_batch_size
: 16num_train_epochs
: 1fp16
: Truemulti_dataset_batch_sampler
: round_robin
训练日志
周期 | 步数 | 训练损失 |
---|---|---|
0.1217 | 500 | 0.7764 |
0.2435 | 1000 | 0.4429 |
0.3652 | 1500 | 0.3971 |
0.4870 | 2000 | 0.375 |
0.6087 | 2500 | 0.3427 |
0.7305 | 3000 | 0.3246 |
0.8522 | 3500 | 0.3173 |
0.9739 | 4000 | 0.3101 |
框架版本
- Python: 3.10.8
- Sentence Transformers: 3.0.1
- Transformers: 4.41.2
- PyTorch: 1.13.1
- Accelerate: 0.31.0
- Datasets: 2.19.1
- Tokenizers: 0.19.1
引用
BibTeX
Sentence Transformers
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: 使用孪生BERT网络的句子嵌入",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "2019年自然语言处理实证方法会议论文集",
month = "11",
year = "2019",
publisher = "计算语言学协会",
url = "https://arxiv.org/abs/1908.10084",
}
MultipleNegativesRankingLoss
@misc{henderson2017efficient,
title={智能回复的高效自然语言响应建议},
author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
year={2017},
eprint={1705.00652},
archivePrefix={arXiv},
primaryClass={cs.CL}
}







