基于nomic-ai/nomic-embed-text-v1.5微调的句子转换器模型,专为科学文献主题相似性任务优化
下载量 114
发布时间 : 2/2/2025
模型介绍
内容详情
替代品
模型简介
该模型将句子和段落映射到768维密集向量空间,适用于语义文本相似性、语义搜索、释义挖掘等任务,特别针对科学文献主题分析进行了优化。
模型特点
长文本处理能力
支持最大8192个标记的序列长度,适合处理科学文献中的长段落
科学主题优化
在SciTopicTriplets数据集上微调,特别擅长科学文献的主题相似性分析
多层次嵌入
采用MatryoshkaLoss训练,可生成768/384/256/128/64维的多层次嵌入
模型能力
语义文本相似性计算
科学文献主题匹配
语义搜索
文本聚类
特征提取
使用案例
学术研究
文献推荐系统
基于内容相似性为研究人员推荐相关文献
在SciGen评估集上达到0.5664的归一化折损累积增益
研究主题分析
识别和聚类科学文献中的相关主题
信息检索
科学文献检索
改进科学数据库中的语义搜索功能
在准确率@10指标上达到0.9893
语言:
- 英语 许可证:apache-2.0 标签:
- 句子转换器
- 句子相似度
- 特征提取
- 训练生成
- 数据集大小:35964
- 损失函数:MatryoshkaLoss
- 损失函数:MultipleNegativesRankingLoss 基础模型:nomic-ai/nomic-embed-text-v1.5 小部件:
- 源句:尽管磷在全球粮食生产中起着至关重要的作用,但对磷供需的经济和政策方面缺乏全面分析,突显了自然资源经济学领域的重大知识空白。
句子:
- 人类大脑本质上是组织成动态、反相关的功能网络
- '磷的故事:全球粮食安全与思考的食物'
- 识别研究领域的知识空白
- 源句:尽管本分析使用了全面的数据来源,但需要注意的是,全球降水估算中仍存在不确定性,特别是在数据稀疏的地区,建议对研究结果进行谨慎解读。
句子:
- 航天飞机雷达地形任务——一种由星载雷达获取的新型数字高程模型
- 建议谨慎解读研究结果
- '全球降水:基于观测、卫星估算和数值模型输出的17年月度分析'
- 源句:研究发现,参与者的价值函数具有损失厌恶、风险厌恶以及效用函数在收益中的凹性和在损失中的凸性特征。
句子:
- 通过液晶模板机制合成的有序介孔分子筛
- '前景理论:风险下的决策分析'
- 总结结果部分
- 源句:需要进一步研究探索单个氨基酸在优化蛋白质摄入和促进最佳健康结果中的潜在作用。
句子:
- 未来工作的建议
- 改良早期预警评分在医疗入院中的验证
- 能量、碳水化合物、纤维、脂肪、脂肪酸、胆固醇、蛋白质和氨基酸的膳食参考摄入量
- 源句:IANA工作组(2021年)基于先前的研究,表明较慢的步速与老年人不良后果风险增加相关(Levine等人,2015年;Schoenfeld等人,2016年)。
句子:
- '可持续性科学中的跨学科研究:实践、原则与挑战'
- 作为社区老年人不良后果预测指标的常规步速:国际营养与老龄化学会(IANA)工作组
- 引用其他作者的观点或立场 数据集:
- Corran/SciTopicTriplets 流水线标签:句子相似度 库名称:sentence-transformers 指标:
- 余弦准确率@1
- 余弦准确率@3
- 余弦准确率@5
- 余弦准确率@10
- 余弦精确率@1
- 余弦精确率@3
- 余弦精确率@5
- 余弦精确率@10
- 余弦召回率@1
- 余弦召回率@3
- 余弦召回率@5
- 余弦召回率@10
- 余弦归一化折损累积增益@10
- 余弦平均倒数排名@10
- 余弦平均精度@100 模型索引:
- 名称:nomic-ai/nomic-embed-text-v1.5
结果:
- 任务:
类型:信息检索
名称:信息检索
数据集:
名称:SciGen评估集
类型:SciGen-Eval-Set
指标:
- 类型:余弦准确率@1 值:0.19750889679715303 名称:余弦准确率@1
- 类型:余弦准确率@3 值:0.5547153024911032 名称:余弦准确率@3
- 类型:余弦准确率@5 值:0.81605871886121 名称:余弦准确率@5
- 类型:余弦准确率@10 值:0.9893238434163701 名称:余弦准确率@10
- 类型:余弦精确率@1 值:0.19750889679715303 名称:余弦精确率@1
- 类型:余弦精确率@3 值:0.1849051008303677 名称:余弦精确率@3
- 类型:余弦精确率@5 值:0.16321174377224199 名称:余弦精确率@5
- 类型:余弦精确率@10 值:0.098932384341637 名称:余弦精确率@10
- 类型:余弦召回率@1 值:0.19750889679715303 名称:余弦召回率@1
- 类型:余弦召回率@3 值:0.5547153024911032 名称:余弦召回率@3
- 类型:余弦召回率@5 值:0.81605871886121 名称:余弦召回率@5
- 类型:余弦召回率@10 值:0.9893238434163701 名称:余弦召回率@10
- 类型:余弦归一化折损累积增益@10 值:0.5663698287874538 名称:余弦归一化折损累积增益@10
- 类型:余弦平均倒数排名@10 值:0.43265442297915546 名称:余弦平均倒数排名@10
- 类型:余弦平均精度@100 值:0.433292401944685 名称:余弦平均精度@100
- 任务:
类型:信息检索
名称:信息检索
数据集:
名称:SciGen评估集
类型:SciGen-Eval-Set
指标:
nomic-ai/nomic-embed-text-v1.5
这是一个基于nomic-ai/nomic-embed-text-v1.5在sci_topic_triplets数据集上微调的sentence-transformers模型。它将句子和段落映射到768维的密集向量空间,可用于语义文本相似性、语义搜索、释义挖掘、文本分类、聚类等任务。
模型详情
模型描述
- 模型类型: 句子转换器
- 基础模型: nomic-ai/nomic-embed-text-v1.5
- 最大序列长度: 8192个标记
- 输出维度: 768维
- 相似性函数: 余弦相似性
- 训练数据集:
- 语言: 英语
- 许可证: apache-2.0
模型来源
- 文档: 句子转换器文档
- 仓库: GitHub上的句子转换器
- Hugging Face: Hugging Face上的句子转换器
完整模型架构
SentenceTransformer(
(0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: NomicBertModel
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)
使用方式
直接使用(句子转换器)
首先安装句子转换器库:
pip install -U sentence-transformers
然后可以加载此模型并运行推理。
from sentence_transformers import SentenceTransformer
# 从🤗 Hub下载
model = SentenceTransformer("Corran/SciTopicNomicEmbed")
# 运行推理
sentences = [
'IANA工作组(2021年)基于先前的研究,表明较慢的步速与老年人不良后果风险增加相关(Levine等人,2015年;Schoenfeld等人,2016年)。',
'作为社区老年人不良后果预测指标的常规步速:国际营养与老龄化学会(IANA)工作组',
'引用其他作者的观点或立场',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]
# 获取嵌入的相似性分数
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
评估
指标
信息检索
- 数据集:
SciGen-Eval-Set
- 使用
InformationRetrievalEvaluator
评估
指标 | 值 |
---|---|
余弦准确率@1 | 0.1975 |
余弦准确率@3 | 0.5547 |
余弦准确率@5 | 0.8161 |
余弦准确率@10 | 0.9893 |
余弦精确率@1 | 0.1975 |
余弦精确率@3 | 0.1849 |
余弦精确率@5 | 0.1632 |
余弦精确率@10 | 0.0989 |
余弦召回率@1 | 0.1975 |
余弦召回率@3 | 0.5547 |
余弦召回率@5 | 0.8161 |
余弦召回率@10 | 0.9893 |
余弦归一化折损累积增益@10 | 0.5664 |
余弦平均倒数排名@10 | 0.4327 |
余弦平均精度@100 | 0.4333 |
训练详情
训练数据集
sci_topic_triplets
- 数据集:sci_topic_triplets at 8bf9936
- 大小:35,964个训练样本
- 列:
query
,positive
, 和negative
- 基于前1000个样本的近似统计:
query positive negative 类型 字符串 字符串 字符串 详情 - 最小:17个标记
- 平均:40.37个标记
- 最大:93个标记
- 最小:5个标记
- 平均:18.75个标记
- 最大:56个标记
- 最小:5个标记
- 平均:10.74个标记
- 最大:23个标记
- 样本:
query positive negative 本研究提供了1980年至2015年间249种死因和195个国家和地区的预期寿命、全因死亡率和死因别死亡率的全面估计,有助于详细了解过去四十年的全球健康趋势和模式。
全球、区域和国家预期寿命、全因死亡率和249种死因别死亡率,1980-2015年:2015年全球疾病负担研究的系统分析
解释当前研究的意义
本文使用计量经济学方法探讨了股票名义超额收益的期望值与波动率之间的关系。
关于股票名义超额收益期望值与波动率之间的关系
陈述短文的重点、目标或论点
尽管审计委员会和董事会在减轻盈余管理中的作用日益受到关注,但多项研究报告了不确定甚至负面的发现。
审计委员会、董事会特征与盈余管理
对先前研究或学术的一般引用:突出负面结果
- 损失函数:
MatryoshkaLoss
参数如下:{ "loss": "MultipleNegativesRankingLoss", "matryoshka_dims": [ 768, 384, 256, 128, 64 ], "matryoshka_weights": [ 1, 1, 1, 1, 1 ], "n_dims_per_step": -1 }
评估数据集
sci_topic_triplets
- 数据集:sci_topic_triplets at 8bf9936
- 大小:4,495个评估样本
- 列:
query
,positive
, 和negative
- 基于前1000个样本的近似统计:
query positive negative 类型 字符串 字符串 字符串 详情 - 最小:18个标记
- 平均:40.1个标记
- 最大:87个标记
- 最小:5个标记
- 平均:18.75个标记
- 最大:58个标记
- 最小:5个标记
- 平均:10.74个标记
- 最大:23个标记
- 样本:
query positive negative 在这项集群随机对照试验中,作者旨在评估引入医疗急救团队(MET)系统在减少急诊科响应时间和改善患者预后方面的有效性。
引入医疗急救团队(MET)系统:一项集群随机对照试验
引用的一些方式
在我们研究的数据收集阶段,我们采用了调查和访谈作为研究方法。具体来说,我们对200名参与者进行了调查,并对10位关键行业专家进行了访谈,以收集关于管理科学实践各个方面的比例数据。
研究方法:初学者逐步指南
调查和访谈:报告比例
详细讨论了几种基于密度泛函理论(DFT)的化学反应性指标,如福井函数和亲电亲核指数,以预测化学反应性。
密度泛函理论中的化学反应性指标
对相关文献的一般评论
- 损失函数:
MatryoshkaLoss
参数如下:{ "loss": "MultipleNegativesRankingLoss", "matryoshka_dims": [ 768, 384, 256, 128, 64 ], "matryoshka_weights": [ 1, 1, 1, 1, 1 ], "n_dims_per_step": -1 }
训练超参数
非默认超参数
eval_strategy
: stepsper_device_train_batch_size
: 256per_device_eval_batch_size
: 256learning_rate
: 2e-05num_train_epochs
: 10warmup_ratio
: 0.1fp16
: Trueload_best_model_at_end
: True
训练日志
周期 | 步数 | 训练损失 | 验证损失 | SciGen-Eval-Set_余弦归一化折损累积增益@10 |
---|---|---|---|---|
0 | 0 | - | - | 0.5454 |
0.1418 | 20 | 4.4872 | 3.1379 | 0.5468 |
0.2837 | 40 | 2.241 | 1.7162 | 0.5497 |
0.4255 | 60 | 1.5937 | 1.4834 | 0.5524 |
0.5674 | 80 | 1.5356 | 1.3911 | 0.5541 |
0.7092 | 100 | 1.4106 | 1.3277 | 0.5549 |
0.8511 | 120 | 1.2612 | 1.2919 | 0.5561 |
0.9929 | 140 | 1.3147 | 1.2642 | 0.5572 |
1.1348 | 160 | 1.1527 | 1.2529 | 0.5582 |
1.2766 | 180 | 1.2103 | 1.2388 | 0.5593 |
1.4184 | 200 | 1.2407 | 1.2235 | 0.5598 |
1.5603 | 220 | 1.1356 | 1.2101 | 0.5607 |
1.7021 | 240 | 1.1644 | 1.1938 | 0.5605 |
1.8440 | 260 | 1.1927 | 1.1864 | 0.5612 |
1.9858 | 280 | 1.1909 | 1.1800 | 0.5613 |
2.1277 | 300 | 1.0549 | 1.1785 | 0.5620 |
2.2695 | 320 | 1.0745 | 1.1755 | 0.5630 |
2.4113 | 340 | 1.1485 | 1.1656 | 0.5637 |
2.5532 | 360 | 1.1159 | 1.1654 | 0.5637 |
2.6950 | 380 | 1.0686 | 1.1623 | 0.5640 |
2.8369 | 400 | 1.1436 | 1.1594 | 0.5632 |
2.9787 | 420 | 1.0899 | 1.1534 | 0.5644 |
3.1206 | 440 | 1.0756 | 1.1512 | 0.5647 |
3.2624 | 460 | 1.0203 | 1.1536 | 0.5645 |
3.4043 | 480 | 1.1073 | 1.1564 | 0.5650 |
3.5461 | 500 | 1.0423 | 1.1594 | 0.5651 |
3.6879 | 520 | 1.069 | 1.1514 | 0.5652 |
3.8298 | 540 | 1.0101 | 1.1538 | 0.5645 |
3.9716 | 560 | 1.0685 | 1.1647 | 0.5650 |
4.1135 | 580 | 1.0326 | 1.1618 | 0.5653 |
4.2553 | 600 | 1.0729 | 1.1587 | 0.5648 |
4.3972 | 620 | 1.0417 | 1.1515 | 0.5655 |
4.5390 | 640 | 1.0438 | 1.1528 | 0.5657 |
4.6809 | 660 | 1.025 | 1.1433 | 0.5660 |
4.8227 | 680 | 1.0526 | 1.1382 | 0.5662 |
4.9645 | 700 | 1.0485 | 1.1392 | 0.5663 |
5.1064 | 720 | 1.0348 | 1.1411 | 0.5665 |
5.2482 | 740 | 1.1001 | 1.1511 | 0.5663 |
5.3901 | 760 | 1.0926 | 1.1625 | 0.5662 |
5.5319 | 780 | 1.0885 | 1.1487 | 0.5662 |
5.6738 | 800 | 1.0942 | 1.1492 | 0.5665 |
5.8156 | 820 | 1.0457 | 1.1465 | 0.5666 |
5.9574 | 840 | 1.0479 | 1.1461 | 0.5664 |
框架版本
- Python: 3.11.11
- Sentence Transformers: 3.3.1
- Transformers: 4.47.1
- PyTorch: 2.5.1+cu124
- Accelerate: 1.2.1
- Datasets: 3.2.0
- Tokenizers: 0.21.0
引用
BibTeX
句子转换器
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
MatryoshkaLoss
@misc{kusupati2024matryoshka,
title={Matryoshka Representation Learning},
author={Aditya Kusupati and Gantavya Bhatt and Aniket Rege and Matthew Wallingford and Aditya Sinha and Vivek Ramanujan and William Howard-Snyder and Kaifeng Chen and Sham Kakade and Prateek Jain and Ali Farhadi},
year={2024},
eprint={2205.13147},
archivePrefix={arXiv},
primaryClass={cs.LG}
}
MultipleNegativesRankingLoss
@misc{henderson2017efficient,
title={Efficient Natural Language Response Suggestion for Smart Reply},
author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
year={2017},
eprint={1705.00652},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
Jina Embeddings V3
Jina Embeddings V3 是一个多语言句子嵌入模型,支持超过100种语言,专注于句子相似度和特征提取任务。
文本嵌入
Transformers

支持多种语言
J
jinaai
3.7M
911
Ms Marco MiniLM L6 V2
Apache-2.0
基于MS Marco段落排序任务训练的交叉编码器模型,用于信息检索中的查询-段落相关性评分
文本嵌入
英语
M
cross-encoder
2.5M
86
Opensearch Neural Sparse Encoding Doc V2 Distill
Apache-2.0
基于蒸馏技术的稀疏检索模型,专为OpenSearch优化,支持免推理文档编码,在搜索相关性和效率上优于V1版本
文本嵌入
Transformers

英语
O
opensearch-project
1.8M
7
Sapbert From PubMedBERT Fulltext
Apache-2.0
基于PubMedBERT的生物医学实体表征模型,通过自对齐预训练优化语义关系捕捉
文本嵌入
英语
S
cambridgeltl
1.7M
49
Gte Large
MIT
GTE-Large 是一个强大的句子转换器模型,专注于句子相似度和文本嵌入任务,在多个基准测试中表现出色。
文本嵌入
英语
G
thenlper
1.5M
278
Gte Base En V1.5
Apache-2.0
GTE-base-en-v1.5 是一个英文句子转换器模型,专注于句子相似度任务,在多个文本嵌入基准测试中表现优异。
文本嵌入
Transformers

支持多种语言
G
Alibaba-NLP
1.5M
63
Gte Multilingual Base
Apache-2.0
GTE Multilingual Base 是一个多语言的句子嵌入模型,支持超过50种语言,适用于句子相似度计算等任务。
文本嵌入
Transformers

支持多种语言
G
Alibaba-NLP
1.2M
246
Polybert
polyBERT是一个化学语言模型,旨在实现完全由机器驱动的超快聚合物信息学。
文本嵌入
Transformers

P
kuelumbus
1.0M
5
Bert Base Turkish Cased Mean Nli Stsb Tr
Apache-2.0
基于土耳其语BERT的句子嵌入模型,专为语义相似度任务优化
文本嵌入
Transformers

其他
B
emrecan
1.0M
40
GIST Small Embedding V0
MIT
基于BAAI/bge-small-en-v1.5模型微调的文本嵌入模型,通过MEDI数据集与MTEB分类任务数据集训练,优化了检索任务的查询编码能力。
文本嵌入
Safetensors
英语
G
avsolatorio
945.68k
29
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers

支持多种语言
L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers

英语
C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统
中文
R
uer
2,694
98
AIbase是一个专注于MCP服务的平台,为AI开发者提供高质量的模型上下文协议服务,助力AI应用开发。
简体中文