🚀 INDUS-Small (nasa-smd-ibm-distil-v0.1) 模型卡片
INDUS-Small (nasa-smd-ibm-distil-v0.1) 是基于 RoBERTa 架构、仅含编码器的变压器模型 INDUS (nasa-impact/nasa-smd-ibm-v0.1) 的蒸馏版本,针对美国国家航空航天局科学任务理事会(NASA SMD)的应用进行了领域适配。该模型在与 NASA SMD 相关的科学期刊和文章上进行了微调,旨在增强信息检索和智能搜索等自然语言技术。
我们以 INDUS 为教师模型,通过知识蒸馏技术训练了参数为 3800 万的较小模型 INDUS_SMALL。INDUS_SMALL 采用了神经架构搜索引擎(Trivedi 等人,2023)推荐的 4 层架构,在性能和延迟之间实现了最佳平衡。我们采用了 MiniLMv2(Wang 等人,2021)中提出的蒸馏目标来传递细粒度的自注意力关系,这已被证明是当前的最优方法(Udagawa 等人,2023)。使用该目标,我们在 30 个 V100 GPU 上以 480 的有效批量大小对模型进行了 50 万步的训练。
✨ 主要特性
- 基于 INDUS 模型进行蒸馏,参数大幅减少至 3800 万,在性能和延迟间取得良好平衡。
- 在与 NASA SMD 相关的科学文献上微调,适用于该领域的自然语言处理任务。
- 采用先进的蒸馏目标传递细粒度自注意力关系。
📚 详细文档
模型详情
属性 |
详情 |
基础模型 |
INDUS |
分词器 |
自定义 |
原始版本参数 |
1.25 亿 |
预训练策略 |
掩码语言模型(MLM) |
蒸馏版本参数 |
3800 万 |
训练数据
- 2020 年 2 月 1 日的英文维基百科
- 美国地球物理联合会(AGU)出版物
- 美国气象学会(AMS)出版物
- 天体物理学数据系统(ADS)的科学论文
- PubMed 摘要
- PubMedCentral(PMC)(商业许可子集)

训练过程
属性 |
详情 |
框架 |
fairseq 0.12.1 搭配 PyTorch 1.9.1 |
transformers 版本 |
4.2.0 |
策略 |
掩码语言模型(MLM) |
评估
BLURB 基准测试
(括号内为 10 个随机种子的标准差。报告的是跨数据集的宏平均和通过对每个任务的分数求平均然后再跨任务平均计算的微平均。)
气候变化命名实体识别(NER)和 NASA-QA 基准测试
(气候变化 NER 和 NASA-QA 基准测试结果。括号内为多次运行的标准差)
如需进一步的基准测试和评估,请参考以下数据集卡片:
- NASA-IR 基准测试 - https://huggingface.co/datasets/nasa-impact/nasa-smd-IR-benchmark
- NASA-QA 基准测试 - https://huggingface.co/datasets/nasa-impact/nasa-smd-qa-benchmark
- 气候变化 NER 基准测试 - https://huggingface.co/datasets/ibm/Climate-Change-NER
用途
- 命名实体识别(NER)
- 信息检索
- 句子嵌入
- 抽取式问答
适用于与 NASA SMD 相关的科学用例。
注意事项
本模型的发布是为了支持编码器语言模型 "Indus" 的训练和评估。
相关论文可在此处找到:https://arxiv.org/abs/2405.10725
引用
如果您觉得这项工作有用,请使用以下 BibTeX 引用:
@misc {nasa-impact_2023,
author = {Masayasu Maraoka and Bishwaranjan Bhattacharjee and Muthukumaran Ramasubramanian and Ikhsa Gurung and Rahul Ramachandran and Manil Maskey and Kaylin Bugbee and Rong Zhang and Yousef El Kurdi and Bharath Dandala and Mike Little and Elizabeth Fancher and Lauren Sanders and Sylvain Costes and Sergi Blanco-Cuaresma and Kelly Lockhart and Thomas Allen and Felix Grazes and Megan Ansdell and Alberto Accomazzi and Sanaz Vahidinia and Ryan McGranaghan and Armin Mehrabian and Tsendgar Lee},
title = { nasa-smd-ibm-v0.1 (Revision f01d42f) },
year = 2023,
url = { https://huggingface.co/nasa-impact/nasa-smd-ibm-v0.1 },
doi = { 10.57967/hf/1429 },
publisher = { Hugging Face }
}
贡献者
IBM 研究团队
- Masayasu Muraoka
- Bishwaranjan Bhattacharjee
- Rong Zhang
- Yousef El Kurdi
- Bharath Dandala
NASA SMD 团队
- Muthukumaran Ramasubramanian
- Iksha Gurung
- Rahul Ramachandran
- Manil Maskey
- Kaylin Bugbee
- Mike Little
- Elizabeth Fancher
- Lauren Sanders
- Sylvain Costes
- Sergi Blanco-Cuaresma
- Kelly Lockhart
- Thomas Allen
- Felix Grazes
- Megan Ansdell
- Alberto Accomazzi
- Sanaz Vahidinia
- Ryan McGranaghan
- Armin Mehrabian
- Tsendgar Lee
免责声明
这个仅含编码器的模型目前处于实验阶段。我们正在努力提高模型的能力和性能,在此过程中,我们邀请社区参与使用该模型,提供反馈,并为其发展做出贡献。
📄 许可证
本模型采用 Apache-2.0 许可证。