许可证:apache-2.0
语言:
- 英语
库名称:transformers
管道标签:填充掩码
标签:
- 地球科学
- 气候
- 生物学
数据集:
- nasa-impact/nasa-smd-IR-benchmark
- nasa-impact/nasa-smd-qa-benchmark
- ibm/Climate-Change-NER
模型卡片:Indus (nasa-smd-ibm-v0.1)
Indus(原名为nasa-smd-ibm-v0.1)是一个基于RoBERTa的仅编码器Transformer模型,专为NASA科学任务理事会(SMD)应用领域进行了适应性训练。该模型通过对NASA SMD相关的科学期刊和文章进行微调,旨在增强信息检索和智能搜索等自然语言处理技术。
模型详情
- 基础模型:RoBERTa
- 分词器:自定义
- 参数量:1.25亿
- 预训练策略:掩码语言建模(MLM)
- 蒸馏版本:可在此下载参数量为3000万的蒸馏版模型:https://huggingface.co/nasa-impact/nasa-smd-ibm-distil-v0.1
训练数据
- 英文维基百科(2020年2月1日)
- 美国地球物理联合会(AGU)出版物
- 美国气象学会(AMS)出版物
- 天体物理学数据系统(ADS)中的科学论文
- PubMed摘要
- PubMedCentral(PMC)(商业许可子集)

训练流程
- 框架:fairseq 0.12.1(基于PyTorch 1.9.1)
- transformers版本:4.2.0
- 策略:掩码语言建模(MLM)
评估
BLURB基准测试

(括号内为10次随机种子运行的宏观平均值标准差,任务间微观平均值通过各任务得分平均后计算。)
气候变化命名实体识别与NASA-QA基准测试

(气候变化NER和NASA-QA基准测试结果,括号内为多次运行的标准差)
更多基准测试与评估请参考以下数据集卡片:
- NASA-IR基准测试:https://huggingface.co/datasets/nasa-impact/nasa-smd-IR-benchmark
- NASA-QA基准测试:https://huggingface.co/datasets/nasa-impact/nasa-smd-qa-benchmark
- 气候变化NER基准测试:https://huggingface.co/datasets/ibm/Climate-Change-NER
用途
- 命名实体识别(NER)
- 信息检索
- 句子嵌入转换
- 抽取式问答
适用于NASA SMD相关的科学应用场景。
说明
配套预印版论文详见:https://arxiv.org/abs/2405.10725
引用
若此工作对您有帮助,请使用以下BibTeX引用:
@misc {nasa-impact_2023,
author = {Masayasu Muraoka and Bishwaranjan Bhattacharjee and Muthukumaran Ramasubramanian and Ikhsa Gurung and Rahul Ramachandran and Manil Maskey and Kaylin Bugbee and Rong Zhang and Yousef El Kurdi and Bharath Dandala and Mike Little and Elizabeth Fancher and Lauren Sanders and Sylvain Costes and Sergi Blanco-Cuaresma and Kelly Lockhart and Thomas Allen and Felix Grazes and Megan Ansdell and Alberto Accomazzi and Sanaz Vahidinia and Ryan McGranaghan and Armin Mehrabian and Tsendgar Lee},
title = { nasa-smd-ibm-v0.1 (Revision f01d42f) },
year = 2023,
url = { https://huggingface.co/nasa-impact/nasa-smd-ibm-v0.1 },
doi = { 10.57967/hf/1429 },
publisher = { Hugging Face }
}
贡献者
IBM研究院
- Masayasu Muraoka
- Bishwaranjan Bhattacharjee
- Rong Zhang
- Yousef El Kurdi
- Bharath Dandala
NASA SMD
- Muthukumaran Ramasubramanian
- Iksha Gurung
- Rahul Ramachandran
- Manil Maskey
- Kaylin Bugbee
- Mike Little
- Elizabeth Fancher
- Lauren Sanders
- Sylvain Costes
- Sergi Blanco-Cuaresma
- Kelly Lockhart
- Thomas Allen
- Felix Grazes
- Megan Ansdell
- Alberto Accomazzi
- Sanaz Vahidinia
- Ryan McGranaghan
- Armin Mehrabian
- Tsendgar Lee
免责声明
该仅编码器模型目前处于实验阶段。我们正在持续提升模型能力与性能,并欢迎社区参与测试、反馈及共同改进。