许可证:apache-2.0
语言:
- 英文
库名称:transformers
流水线标签:填充掩码
标签:
- 地球科学
- 气候
- 生物学
INDUS-Small (nasa-smd-ibm-distil-v0.1) 模型卡
INDUS-Small (nasa-smd-ibm-distil-v0.1) 是基于 RoBERTa 的纯编码器 Transformer 模型 INDUS (nasa-impact/nasa-smd-ibm-v0.1) 的蒸馏版本,专为 NASA 科学任务理事会 (SMD) 应用领域适配。该模型针对 NASA SMD 相关的科学期刊和文章进行了微调,旨在提升信息检索和智能搜索等自然语言处理技术。
我们通过知识蒸馏技术,以 INDUS 作为教师模型,训练了参数规模为 3800 万的小型模型 INDUS_SMALL。该模型采用神经架构搜索引擎(Trivedi 等,2023)推荐的 4 层架构,在性能与延迟之间实现了最优平衡。我们采用 MiniLMv2(Wang 等,2021)提出的蒸馏目标来迁移细粒度的自注意力关系,该方法已被证明是当前最先进的技术(Udagawa 等,2023)。基于此目标,我们在 30 块 V100 GPU 上以 480 的有效批量大小训练了 50 万步。
模型详情
- 基础模型:INDUS
- 分词器:定制
- 原始版本参数:1.25 亿
- 预训练策略:掩码语言建模 (MLM)
- 蒸馏版本参数:3800 万
训练数据
- 英文维基百科(2020 年 2 月 1 日)
- 美国地球物理联合会 (AGU) 出版物
- 美国气象学会 (AMS) 出版物
- 天体物理学数据系统 (ADS) 的科学论文
- PubMed 摘要
- PubMedCentral (PMC)(商业许可子集)

训练流程
- 框架:fairseq 0.12.1 + PyTorch 1.9.1
- transformers 版本:4.2.0
- 策略:掩码语言建模 (MLM)
评估
BLURB 基准测试

(括号内为 10 个随机种子的标准差。宏平均为跨数据集计算,微平均为对各任务得分取平均后再跨任务平均。)
气候变化 NER 与 NASA-QA 基准测试

(气候变化 NER 和 NASA-QA 基准测试结果。括号内为多次运行的标准差。)
其他基准测试与评估请参考以下数据集卡片:
- NASA-IR 基准测试 - https://huggingface.co/datasets/nasa-impact/nasa-smd-IR-benchmark
- NASA-QA 基准测试 - https://huggingface.co/datasets/nasa-impact/nasa-smd-qa-benchmark
- 气候变化 NER 基准测试 - https://huggingface.co/datasets/ibm/Climate-Change-NER
用途
- 命名实体识别 (NER)
- 信息检索
- 句子嵌入
- 抽取式问答
适用于 NASA SMD 相关的科学应用场景。
说明
本模型作为编码器语言模型 "Indus" 的训练与评估支持工具发布。
配套论文详见:https://arxiv.org/abs/2405.10725
引用
若此工作对您有帮助,请使用以下 BibTeX 引用:
@misc {nasa-impact_2023,
author = {Masayasu Muraoka and Bishwaranjan Bhattacharjee and Muthukumaran Ramasubramanian and Ikhsa Gurung and Rahul Ramachandran and Manil Maskey and Kaylin Bugbee and Rong Zhang and Yousef El Kurdi and Bharath Dandala and Mike Little and Elizabeth Fancher and Lauren Sanders and Sylvain Costes and Sergi Blanco-Cuaresma and Kelly Lockhart and Thomas Allen and Felix Grazes and Megan Ansdell and Alberto Accomazzi and Sanaz Vahidinia and Ryan McGranaghan and Armin Mehrabian and Tsendgar Lee},
title = { nasa-smd-ibm-v0.1 (Revision f01d42f) },
year = 2023,
url = { https://huggingface.co/nasa-impact/nasa-smd-ibm-v0.1 },
doi = { 10.57967/hf/1429 },
publisher = { Hugging Face }
}
贡献者
IBM 研究院
- Masayasu Muraoka
- Bishwaranjan Bhattacharjee
- Rong Zhang
- Yousef El Kurdi
- Bharath Dandala
NASA SMD
- Muthukumaran Ramasubramanian
- Iksha Gurung
- Rahul Ramachandran
- Manil Maskey
- Kaylin Bugbee
- Mike Little
- Elizabeth Fancher
- Lauren Sanders
- Sylvain Costes
- Sergi Blanco-Cuaresma
- Kelly Lockhart
- Thomas Allen
- Felix Grazes
- Megan Ansdell
- Alberto Accomazzi
- Sanaz Vahidinia
- Ryan McGranaghan
- Armin Mehrabian
- Tsendgar Lee
免责声明
本纯编码器模型目前处于实验阶段。我们正在持续提升模型能力与性能,并欢迎社区参与测试、提供反馈以推动其发展。