许可证:apache-2.0
语言:
- 英语
库名称:sentence-transformers
标签:
- 地球科学
- 气候
- 生物学
管道标签:句子相似度
Indus-Retriever模型卡
Indus-Retriever(nasa-smd-ibm-st-v2
)是一个双编码器句子转换模型,基于nasa-smd-ibm-v0.1编码器模型微调而成。它是nasa-smd-ibm-st
的升级版本,性能更优(如下所示)。该模型通过2.71亿个示例以及由NASA科学任务理事会(SMD)整理的260万篇领域特定文档数据集进行训练。我们希望通过此模型增强自然语言技术,如信息检索和智能搜索,以应用于SMD的自然语言处理任务。
您也可以使用此模型的蒸馏版本:https://huggingface.co/nasa-impact/nasa-ibm-st.38m
模型详情
- 基础编码器模型:INDUS
- 分词器:自定义
- 参数量:1.25亿
- 训练策略:句子对及相关性评分。模型独立编码两个句子对,并计算余弦相似度,通过相关性评分优化相似度。
训练数据

图:句子转换器的开放数据集来源(总计2.69亿条)
此外,还包括从NASA SMD文档中收集的260万篇摘要与标题对。
训练过程
- 框架:PyTorch 1.9.1
- sentence-transformers版本:4.30.2
- 策略:句子对
评估
评估了以下模型:
- All-MiniLM-l6-v2 [sentence-transformers/all-MiniLM-L6-v2]
- BGE-base [BAAI/bge-base-en-v1.5]
- RoBERTa-base [roberta-base]
- nasa-smd-ibm-rtvr_v0.1 [nasa-impact/nasa-smd-ibm-st]

图:BEIR和NASA-IR评估指标
用途
适用于NASA SMD相关的科学用例。
使用方法
from sentence_transformers import SentenceTransformer, Util
model = SentenceTransformer("nasa-impact/nasa-smd-ibm-st-v2")
input_queries = [
'query: 女性每天应摄入多少蛋白质', 'query: 峰会的定义']
input_passages = [
"根据CDC的一般指南,19至70岁女性每天的平均蛋白质需求量为46克。但如本图表所示,如果您怀孕或正在备战马拉松,则需要增加摄入量。请查看下方图表以了解每日蛋白质摄入建议。",
"峰会定义(针对英语学习者):1. 山的最高点;山顶。2. 最高级别。3. 两国或多国领导人之间的会议或系列会议。"]
query_embeddings = model.encode(input_queries)
passage_embeddings = model.encode(input_passages)
print(util.cos_sim(query_embeddings, passage_embeddings))
说明
此句子转换模型是为支持编码器语言模型"Indus"的训练和评估而发布的。
相关论文请见:https://arxiv.org/abs/2405.10725
引用
如果您认为此工作有用,请使用以下BibTeX引用:
@misc {nasa-impact_2024,
author = { {NASA-IMPACT} },
title = { nasa-smd-ibm-st-v2 (修订版 d249d84) },
year = 2024,
url = { https://huggingface.co/nasa-impact/nasa-smd-ibm-st-v2 },
doi = { 10.57967/hf/1800 },
publisher = { Hugging Face }
}
贡献者
IBM研究团队
- Aashka Trivedi
- Masayasu Muraoka
- Bishwaranjan Bhattacharjee
NASA SMD团队
- Muthukumaran Ramasubramanian
- Iksha Gurung
- Rahul Ramachandran
- Manil Maskey
- Kaylin Bugbee
- Mike Little
- Elizabeth Fancher
- Lauren Sanders
- Sylvain Costes
- Sergi Blanco-Cuaresma
- Kelly Lockhart
- Thomas Allen
- Felix Grazes
- Megan Ansdell
- Alberto Accomazzi
- Sanaz Vahidinia
- Ryan McGranaghan
- Armin Mehrabian
- Tsendgar Lee
免责声明
此句子转换模型目前处于实验阶段。我们正在努力提升模型的性能和能力,并欢迎社区参与测试、提供反馈并共同推动其发展。