语言:
- 英文
标签:
- 句子转换器
- 句子相似度
- 特征提取
- 训练生成
- 数据集大小:11002
- 损失函数:多重负例排序损失
基础模型: jinaai/jina-embeddings-v2-base-en
小部件示例:
- 源句: 一个人在背景有山的沙漠公路上独自跳跃。
对比句:
- 一个男人在沙漠公路上跳跃
- 一个男人弹奏银色电吉他
- 一个男人没有在沙漠公路上跳跃
- 源句: 两支球队的球员为争夺飞行的橄榄球纠缠在一起。
对比句:
- 两支球队正在比赛
- 两支球队没有比赛
- 男人们在街上跳舞
- 源句: 球队在最后一分钟赢得了比赛。
对比句:
- 最后一分钟,球队赢得了比赛
- 球队在最后一分钟输掉了比赛
- 为庆祝纪念日,他们徒步穿越山脉,享受大自然的宁静
- 源句: 他一口气读完了这本书。
对比句:
- 他艰难地读完这本书,花了一周时间
- 他一口气读完了这本书
- 爵士乐手即兴创作出卓越的管弦乐曲
- 源句: 油漆能保护木材
对比句:
- 涂层可保护木材
- 木材保护涂层
- 单细胞生物早于复杂生物出现
数据集:
- bwang0911/word-orders-triplet
- jinaai/negation-dataset
任务类型: 句子相似度
库名称: sentence-transformers
基于jinaai/jina-embeddings-v2-base-en的SentenceTransformer模型
这是基于jinaai/jina-embeddings-v2-base-en微调的sentence-transformers模型,训练数据来自word_orders和negation_dataset数据集。该模型可将句子和段落映射到768维稠密向量空间,适用于语义文本相似度、语义搜索、复述挖掘、文本分类、聚类等任务。
模型详情
模型描述
模型来源
完整模型架构
SentenceTransformer(
(0): Transformer({'max_seq_length': 128, 'do_lower_case': False}) with Transformer model: JinaBertModel
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
(2): Normalize()
)
使用方式
直接使用(Sentence Transformers)
首先安装库:
pip install -U sentence-transformers
然后加载模型进行推理:
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("bwang0911/word-order-jina")
sentences = [
'油漆能保护木材',
'涂层可保护木材',
'木材保护涂层',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
训练详情
训练数据集
word_orders数据集
- 数据集版本: 99609ac
- 样本量: 1,002条
- 列:
anchor
, pos
, neg
- 示例:
锚点文本 |
正例文本 |
负例文本 |
河流从山脉流向大海 |
水从山峰流向海洋 |
河流从大海流向山脉 |
negation_dataset数据集
- 数据集版本: cd02256
- 样本量: 10,000条
- 示例:
锚点文本 |
蕴含文本 |
否定文本 |
两个小女孩在非城市环境中玩耍 |
两个女孩在户外玩耍 |
两个女孩没有在户外玩耍 |
训练超参数
- 批次大小: 128
- 学习率: 5e-5
- 训练轮次: 3
- 热身比例: 0.1
- 混合精度训练: True
引用
BibTeX引用
Sentence Transformers
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
多重负例排序损失
@misc{henderson2017efficient,
title={Efficient Natural Language Response Suggestion for Smart Reply},
author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
year={2017},
eprint={1705.00652},
archivePrefix={arXiv},
primaryClass={cs.CL}
}