许可证:mit
语言:
- 英语
任务类别:
- 填充掩码
任务ID:
- 掩码语言建模
流水线标签:填充掩码
示例:
- 文本:"M67是被研究最多的[MASK]星团之一。"
示例标题:"M67"
- 文本:"太阳双星是指[MASK]参数和化学组成与太阳极为相似的恒星。"
示例标题:"太阳双星"
- 文本:"靠近恒星的行星动力学演化受[MASK]效应影响。"
示例标题:"动力学演化"
- 文本:"开普勒卫星为超过10万颗类太阳恒星收集了高精度长期连续的光[MASK]数据。"
示例标题:"开普勒卫星"
- 文本:"本星系群由银河系、[MASK]星系及众多小型卫星星系组成。"
示例标题:"本星系群"
- 文本:"造父变星用于测定本地宇宙中星系与我们的[MASK]。"
示例标题:"造父变星"
- 文本:"喷流由物质[MASK]致密大质量天体产生并维持。"
示例标题:"喷流"
- 文本:"一颗太阳质量的单星将演化成[MASK]矮星。"
示例标题:"单星"
- 文本:"甚大阵在[MASK]波段观测天空。"
示例标题:"甚大阵"
- 文本:"比[MASK]重的元素产生于超新星爆发。"
示例标题:"元素"
- 文本:"斯皮策是首个在地球拖尾轨道运行的[MASK]。"
示例标题:"斯皮策"
- 文本:"当两个(或更多)星系相撞时会发生星系[MASK]。"
示例标题:"星系碰撞"
- 文本:"暗[MASK]是一种假想的物质形态,被认为约占宇宙总物质的85%。"
示例标题:"假想物质"
- 文本:"宇宙微波背景辐射(CMB, CMBR)是大爆炸宇宙学中早期[MASK]阶段遗留的电磁辐射。"
示例标题:"CMBR"
- 文本:"本星系群被巨[MASK]吸引。"
示例标题:"星系吸引"
- 文本:"月球是地球唯一的[MASK]。"
示例标题:"月球"
- 文本:"星系按其视觉形态分为[MASK]星系、旋涡星系或不规则星系。"
示例标题:"形态分类"
- 文本:"恒星主要由[MASK]构成。"
示例标题:"恒星成分"
- 文本:"彗尾在彗星接近[MASK]时形成。"
示例标题:"彗尾"
- 文本:"冥王星是柯伊伯带中的一颗矮[MASK]。"
示例标题:"冥王星"
- 文本:"大麦哲伦云和小麦哲伦云是不规则[MASK]星系,是银河系的两个卫星星系。"
示例标题:"麦哲伦云"
- 文本:"银河系中心存在一个[MASK]黑洞——人马座A*。"
示例标题:"银河系"
- 文本:"仙女座星系是距离银河系最近的大型[MASK],质量与之相当。"
示例标题:"仙女座"
- 文本:"[MASK]介质是恒星之间的气体和尘埃。"
示例标题:"气体尘埃"
astroBERT:天体物理学专用语言模型
本公开仓库包含NASA/ADS团队为天体物理学领域构建自然语言处理模型的研究成果,附教程及相关文件。
该模型为区分大小写版本(会区别处理ads
与ADS
)。
astroBERT模型系列
- 基础模型:采用掩码语言建模(MLM)和下一句预测(NSP)目标训练的英语预训练模型。发表于ADASS 2021会议论文,并于ADASS 2022公开。
- NER-DEAL模型:在基础模型上增加词元分类头,针对WIESP2022的DEAL命名实体识别任务微调。需从
revision='NER-DEAL'
分支加载(参见教程2)。
- SciX分类器:该模型经微调可将文本分类为SciX关注的7个类别(天文学、太阳物理学、行星科学、地球科学、NASA资助的生物物理学、其他物理学、其他、文本垃圾)。
教程指南
- 生成文本嵌入(用于下游任务)
- 使用astroBERT进行填充掩码任务
- 执行NER-DEAL预测
- 为SciX进行文本分类
文献引用
@ARTICLE{2021arXiv211200590G,
author = {{Grezes}, Felix and {Blanco-Cuaresma}, Sergi and {Accomazzi}, Alberto and {Kurtz}, Michael J. and {Shapurian}, Golnaz and {Henneken}, Edwin and {Grant}, Carolyn S. and {Thompson}, Donna M. and {Chyla}, Roman and {McDonald}, Stephen and {Hostetler}, Timothy W. and {Templeton}, Matthew R. and {Lockhart}, Kelly E. and {Martinovic}, Nemanja and {Chen}, Shinyi and {Tanner}, Chris and {Protopapas}, Pavlos},
title = "{Building astroBERT, a language model for Astronomy \& Astrophysics}",
journal = {arXiv e-prints},
keywords = {Computer Science - Computation and Language, Astrophysics - Instrumentation and Methods for Astrophysics},
year = 2021,
month = dec,
eid = {arXiv:2112.00590},
pages = {arXiv:2112.00590},
archivePrefix = {arXiv},
eprint = {2112.00590},
primaryClass = {cs.CL},
adsurl = {https://ui.adsabs.harvard.edu/abs/2021arXiv211200590G},
adsnote = {Provided by the SAO/NASA Astrophysics Data System}
}