🚀 roberta-base_topic_classification_nyt_news
本模型是 roberta-base 在纽约时报新闻数据集上的微调版本。该数据集包含从2000年至今发表的256,000条新闻标题(https://www.kaggle.com/datasets/aryansingh0909/nyt-articles-21m-2000-present)。它在51200个案例的测试集上取得了以下成绩:
- 准确率:0.91
- F1值:0.91
- 精确率:0.91
- 召回率:0.91
🚀 快速开始
本模型可用于新闻主题分类任务,通过微调roberta-base在纽约时报新闻数据集上训练得到,具有较高的准确率、F1值、精确率和召回率。
✨ 主要特性
- 基于roberta-base模型进行微调,在新闻主题分类任务上表现出色。
- 提供了详细的训练数据分类和训练过程信息。
- 可以方便地使用HuggingFace的pipeline进行调用。
📦 安装指南
使用该模型前,需要安装相关依赖库,可使用以下命令安装:
pip install transformers datasets torch tokenizers
💻 使用示例
基础用法
from transformers import AutoTokenizer, AutoModelForSequenceClassification
from transformers import pipeline
tokenizer = AutoTokenizer.from_pretrained("dstefa/roberta-base_topic_classification_nyt_news")
model = AutoModelForSequenceClassification.from_pretrained("dstefa/roberta-base_topic_classification_nyt_news")
pipe = pipeline("text-classification", model=model, tokenizer=tokenizer)
text = "Kederis proclaims innocence Olympic champion Kostas Kederis today left hospital ahead of his date with IOC inquisitors claiming his innocence and vowing."
pipe(text)
[{'label': 'Sports', 'score': 0.9989326596260071}]
📚 详细文档
训练数据
训练数据分类如下:
类别 |
描述 |
0 |
体育 |
1 |
艺术、文化和娱乐 |
2 |
商业和金融 |
3 |
健康与保健 |
4 |
生活方式和时尚 |
5 |
科学与技术 |
6 |
政治 |
7 |
犯罪 |
训练过程
训练超参数
训练过程中使用了以下超参数:
- 学习率:5e-05
- 训练批次大小:8
- 评估批次大小:8
- 随机种子:42
- 优化器:Adam,β=(0.9, 0.999),ε=1e-08
- 学习率调度器类型:线性
- 学习率调度器热身步数:500
- 训练轮数:5
训练结果
训练损失 |
轮数 |
步数 |
验证损失 |
准确率 |
F1值 |
精确率 |
召回率 |
0.3192 |
1.0 |
20480 |
0.4078 |
0.8865 |
0.8859 |
0.8892 |
0.8865 |
0.2863 |
2.0 |
40960 |
0.4271 |
0.8972 |
0.8970 |
0.8982 |
0.8972 |
0.1979 |
3.0 |
61440 |
0.3797 |
0.9094 |
0.9092 |
0.9098 |
0.9094 |
0.1239 |
4.0 |
81920 |
0.3981 |
0.9117 |
0.9113 |
0.9114 |
0.9117 |
0.1472 |
5.0 |
102400 |
0.4033 |
0.9137 |
0.9135 |
0.9134 |
0.9137 |
模型性能
类别 |
精确率 |
召回率 |
F1值 |
样本数 |
体育 |
0.97 |
0.98 |
0.97 |
6400 |
艺术、文化和娱乐 |
0.94 |
0.95 |
0.94 |
6400 |
商业和金融 |
0.85 |
0.84 |
0.84 |
6400 |
健康与保健 |
0.90 |
0.93 |
0.91 |
6400 |
生活方式和时尚 |
0.95 |
0.95 |
0.95 |
6400 |
科学与技术 |
0.89 |
0.83 |
0.86 |
6400 |
政治 |
0.93 |
0.88 |
0.90 |
6400 |
犯罪 |
0.85 |
0.93 |
0.89 |
6400 |
|
|
|
|
|
准确率 |
|
|
0.91 |
51200 |
宏平均 |
0.91 |
0.91 |
0.91 |
51200 |
加权平均 |
0.91 |
0.91 |
0.91 |
51200 |
框架版本
- Transformers 4.32.1
- Pytorch 2.1.0+cu121
- Datasets 2.12.0
- Tokenizers 0.13.2
🔧 技术细节
本模型基于roberta-base进行微调,在纽约时报新闻数据集上进行训练。训练过程中使用了Adam优化器和线性学习率调度器,并设置了热身步数。通过多轮训练,模型在测试集上取得了较好的性能。
📄 许可证
本项目采用MIT许可证。