science-keyword-classification开源模型 - 精准分类NASA科学关键词，提升元数据可用性

首页

Science Keyword Classification

由 nasa-impact 开发

基于INDUS模型微调，用于对NASA通用元数据存储库中的科学关键词进行分类，提升地球观测元数据的可访问性和组织性。

文本分类

Transformers

英语开源协议:Apache-2.0 #极端多标签分类 #NASA元数据处理 #焦点损失优化

下载量 131

发布时间 : 10/11/2024

模型简介

该模型在极端多标签分类环境下工作，能够处理大量潜在标签并应对标签频率不平衡问题，通过预测相关关键词来优化NASA地球观测元数据的组织。

模型特点

极端多标签分类

能够处理大量潜在标签（关键词）的分类问题，并且可以应对标签频率不平衡的情况。

分层数据拆分

数据集基于provider-id进行拆分，确保训练集、验证集和测试集之间的平衡表示。

优化的焦点损失

使用焦点损失（γ=2）替代交叉熵损失，通过关注难以分类的样本来解决标签不平衡问题，显著提升性能指标。

模型能力

科学关键词分类

极端多标签预测

元数据组织优化

使用案例

地球观测数据管理

NASA元数据关键词自动标注

为NASA通用元数据存储库中的科学数据自动分配相关关键词

提高元数据的可发现性和组织效率

🚀 科学关键词分类模型

本项目对 INDUS 模型进行了微调，用于对美国国家航空航天局（NASA）通用元数据存储库（CMR）中的科学关键词进行分类。该项目旨在通过在极端多标签分类环境中预测相关关键词，提高地球观测元数据的可访问性和组织性。

🚀 快速开始

我们对 INDUS 模型进行微调，以实现从 NASA 的通用元数据存储库（CMR）中对科学关键词进行分类。项目目标是在极端多标签分类场景下，通过预测相关关键词，提升地球观测元数据的可访问性和组织性。

✨ 主要特性

极端多标签分类：能够处理大量潜在标签（关键词）的分类问题，并且可以应对标签频率不平衡的情况。
分层拆分：数据集基于 provider-id 进行拆分，以确保训练集、验证集和测试集之间的平衡表示。
性能提升：评估了不同聚焦参数（γ）的焦点损失，与交叉熵损失和之前的模型相比，在加权精度、召回率、F1 分数和 Jaccard 相似度方面有显著提升。

📦 安装指南

暂未提供相关安装步骤。

💻 使用示例

基础用法

在从模型获得预测结果后，我们可以使用 model.config.id2label 字典将预测的标签索引映射到它们的实际名称。

# Example usage
predicted_indices = [0, 2, 5] # top 3
predicted_labels = [model.config.id2label[idx] for idx in predicted_indices]
print(predicted_labels)

📚 详细文档

模型概述

属性	详情
基础模型	INDUS，针对多标签分类进行了微调
损失函数	模型使用焦点损失而非传统的交叉熵损失，通过关注难以分类的样本来解决标签不平衡问题
数据集	NASA 的 CMR 元数据，经过过滤以去除重复项和不相关标签，得到一个包含 42,474 条记录和 3,240 个标签的数据集。你可以在此处找到该数据集