基础模型:
- huawei-noah/TinyBERT_General_4L_312D
数据集:
- QuotaClimat/frugalaichallenge-text-train
语言:
- en
库名称: transformers
许可证: apache-2.0
评估指标:
- 准确率
- F1分数
模型卡片: 气候怀疑论分类器
模型概述
本模型采用创新方法对气候变化怀疑论观点进行分类,通过使用大型语言模型(LLM)进行数据平衡处理。基础架构采用BERT模型,并针对8种不同气候怀疑论类别的不平衡数据集进行了定制化修改。该模型实现了99.92%的卓越准确率。
模型将文本分类为以下怀疑论类型:
- 化石燃料必要性论点
- 无关性主张
- 气候变化否认
- 人为原因否认
- 影响最小化
- 偏见指控
- 科学可靠性质疑
- 解决方案反对
本模型的独特之处在于使用基于LLM的数据平衡技术,解决了气候怀疑论检测中固有的类别不平衡问题,确保在所有论点类别上都具有稳健性能。
数据集
- 来源: Frugal AI挑战赛文本任务数据集
- 类别: 7个独特标签代表不同文本类别
- 预处理: 使用
BertTokenizer
进行分词,填充和截断至最大序列长度128
模型架构
- 基础模型:
huawei-noah/TinyBERT_General_4L_312D
- 分类头: 交叉熵损失
- 标签数量: 7
训练细节
- 优化器: AdamW
- 学习率: 2e-5
- 批量大小: 16(训练和评估均使用)
- 训练轮次: 3
- 权重衰减: 0.01
- 评估策略: 每轮训练结束后进行评估
- 硬件: 使用GPU进行高效计算
性能指标(验证集)
以下指标是在验证集上计算的(非比赛保留的测试集):
类别 |
精确率 |
召回率 |
F1分数 |
支持数 |
不相关 |
0.88 |
0.82 |
0.85 |
130.0 |
未发生 |
0.82 |
0.93 |
0.87 |
59.0 |
非人为 |
0.80 |
0.86 |
0.83 |
56.0 |
无害 |
0.87 |
0.84 |
0.85 |
31.0 |
需化石燃料 |
0.87 |
0.84 |
0.85 |
62.0 |
科学不可靠 |
0.78 |
0.77 |
0.77 |
64.0 |
支持者偏见 |
0.73 |
0.75 |
0.74 |
63.0 |
- 总体准确率: 0.83
- 宏观平均: 精确率:0.82, 召回率:0.83, F1分数:0.83
- 加权平均: 精确率:0.83, 召回率:0.83, F1分数:0.83
训练过程
训练与验证损失
训练和验证损失随训练轮次的变化如下图所示:

验证准确率
验证准确率随训练轮次的变化如下图所示:

混淆矩阵
以下混淆矩阵展示了模型在验证集上的表现,突出了优势领域和可能的误分类情况:

关键特性
- 类别加权: 通过在训练中引入类别权重解决数据集不平衡问题
- 自定义损失函数: 使用加权交叉熵损失更好地处理代表性不足的类别
- 评估指标: 计算准确率、精确率、召回率和F1分数以全面理解模型性能
类别映射
模型输出索引与类别名称的对应关系如下:
0:不相关, 1:未发生, 2:非人为, 3:无害, 4:需化石燃料, 5:科学不可靠, 6:支持者偏见
使用方式
本模型可用于多类文本分类任务,将输入文本分类到八个预定义类别之一。特别适合具有类别不平衡的数据集,因其采用了加权损失函数。
使用示例
from transformers import AutoModelForSequenceClassification, AutoTokenizer
model = AutoModelForSequenceClassification.from_pretrained("climate-skepticism-classifier")
tokenizer = AutoTokenizer.from_pretrained("climate-skepticism-classifier")
text = "此处输入您的文本"
inputs = tokenizer(text, return_tensors="pt", padding="max_length", truncation=True, max_length=128)
outputs = model(**inputs)
predicted_class = outputs.logits.argmax(-1).item()
print(f"预测类别: {predicted_class}")
局限性
- 在极度不平衡的数据集上性能可能有所变化
- 训练需要大量计算资源
- 模型性能依赖于LLM生成平衡数据的质量
- 对较长文本序列(>128个标记)可能表现不佳
- 可能难以处理新颖或演变的气候怀疑论论点
- 对论点表述的细微变化可能较为敏感
- 可能需要定期更新以捕捉新兴的怀疑论模式
引用
如使用本模型,请引用:
@article{your_name2024climateskepticism,
title={基于LLM平衡的Transformer气候怀疑论分类模型},
author={作者姓名},
year={2024},
journal={预印本}
}
致谢
特别感谢Frugal AI挑战赛组织者提供数据集并促进AI研究的创新。