标签:
- 训练生成
- 金融
基础模型: cardiffnlp/twitter-roberta-base-sentiment
指标:
- 准确率
模型索引:
- 名称: fine-tuned-cardiffnlp-twitter-roberta-base-sentiment-finance-dataset
结果: []
数据集:
- CJCJ3030/twitter-financial-news-sentiment
语言:
- 英文
库名称: transformers
管道标签: 文本分类
小部件:
- 文本: "英国4月房屋销售量增长12%"
- 文本: "新加坡石油交易商因协助伪造和欺骗汇丰银行被判有罪"
- 文本: "‘到处都是钱’:米尔肯会议参与者寻求交易复苏"
- 文本: "4月ETF购买量几乎减半,因美国降息希望减弱"
- 文本: "托德·博利的投资公司就收购私人信贷公司进行深入谈判"
- 文本: "伯克希尔·哈撒韦现金储备创新高,巴菲特抛售股票"
- 文本: "丰收合作将香港上市的加密ETF引入新加坡"
- 文本: "哈萨克斯坦寡头Timur Kulibayev以3500万英镑出售梅菲尔豪宅"
- 文本: "德意志银行DWS夸大客户资产流入数十亿欧元"
- 文本: "瑞银第一季度利润超出预期"
fine-tuned-cardiffnlp-twitter-roberta-base-sentiment-finance-dataset
该模型是基于cardiffnlp/twitter-roberta-base-sentiment在推特金融新闻情感数据集上微调的版本。
在评估集上取得了以下结果:
推理API中的10个示例收集自2024年5月初的https://twitter.com/ftfinancenews
微调Colab笔记本: https://colab.research.google.com/drive/1gvpFbazlxg3AdSldH3w6TYjGUByxqCrh?usp=sharing
训练数据
https://huggingface.co/datasets/CJCJ3030/twitter-financial-news-sentiment/viewer/default/train
评估数据
https://huggingface.co/datasets/CJCJ3030/twitter-financial-news-sentiment/viewer/default/validation
训练超参数
训练期间使用了以下超参数:
- 学习率: 5e-05
- 训练批次大小: 120
- 评估批次大小: 120
- 随机种子: 42
- 优化器: Adam,参数为betas=(0.9,0.999)和epsilon=1e-08
- 学习率调度器类型: 线性
- 训练轮数: 5
训练结果
轮次 |
步数 |
验证损失 |
准确率 |
1.0 |
80 |
0.3123 |
0.8559 |
2.0 |
160 |
0.3200 |
0.8576 |
3.0 |
240 |
0.3538 |
0.8819 |
4.0 |
320 |
0.3695 |
0.8882 |
5.0 |
400 |
0.4108 |
0.8869 |
框架版本
- Transformers 4.40.2
- Pytorch 2.2.1+cu121
- Datasets 2.19.1
- Tokenizers 0.19.1
引用
@inproceedings{barbieri-etal-2020-tweeteval,
title = "{T}weet{E}val: Unified Benchmark and Comparative Evaluation for Tweet Classification",
author = "Barbieri, Francesco and
Camacho-Collados, Jose and
Espinosa Anke, Luis and
Neves, Leonardo",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.148",
doi = "10.18653/v1/2020.findings-emnlp.148",
pages = "1644--1650"
}