基于AutoTrain运行生成的模型卡片
日期:2025-04-07
语言:
- en # 主要来自EDGAR的英文数据
- multilingual # 假设包含欧洲来源的多语言数据及XLM-R基础模型
库名称:transformers
许可证:apache-2.0 # 或其他适用许可证
标签:
- 文本分类
- 财务文件
- xlm-roberta
- autotrain
管道标签:文本分类
基础模型:FacebookAI/xlm-roberta-large
小部件示例:
- 文本:"ACME公司今日公布了第四季度业绩..."
示例标题:"文件片段示例"
数据集:
- 自定义 # 结合Labelbox和EDGAR数据
模型索引:
- 名称:FinancialReports/filing-classification-xlmr # 模型仓库ID
结果:
- 任务:
类型:文本分类
名称:文本分类
数据集:
类型:自定义
名称:综合财务文件(Labelbox + EDGAR)
拆分:验证
指标:
- 类型:准确率
值:0.9617
名称:准确率
- 类型:f1
值:0.6470
名称:F1(宏观)
- 类型:f1
值:0.9597
名称:F1(加权)
- 类型:损失
值:0.1687
名称:损失
模型卡片:FinancialReports文件分类器
模型详情
- 模型名称:
FinancialReports/filing-classification-xlmr
(基于AutoTrain项目及组织的假设仓库ID)
- 描述: 该模型是基于
FacebookAI/xlm-roberta-large
微调的版本,专为财务文件的多元文本分类设计。它将输入文本(预期为Markdown格式)分类为37个预定义的文件类型之一。
- 基础模型: FacebookAI/xlm-roberta-large
- 开发者: FinancialReports (financialreports.eu)
- 模型版本: 1.0
- 微调框架: Hugging Face AutoTrain
预期用途
- 主要用途: 根据文本内容自动将财务文件分类为37个类别之一(如年度报告、季度报告、董事交易等)。
- 主要用户: 金融分析师、数据提供商、法规合规团队、FinancialReports相关研究人员。
- 非适用范围: 该模型不适用于情感分析、命名实体识别或超出37个财务文件类型的分类任务。对于与训练数据显著不同的文件类型,性能无法保证。
训练数据
- 数据集: 模型在约14,233份财务文件上进行了微调。
- 来源:
- 约9,700份通过Labelbox自定义标注的文件,可能源自欧洲公司(可能为多语言)。
- 约4,500份来自美国EDGAR数据库的文件(英文)。
- 预处理: 文件文本在训练前转换为Markdown格式。AutoTrain处理了训练/验证拆分(通常为80/20或90/10)。
- 标签: 数据集涵盖37个不同的文件类型分类。由于数据来源,某些文件类型的出现频率远高于其他类型。
训练过程
- 框架: Hugging Face AutoTrain UI运行于Hugging Face Space内。
- 硬件: Nvidia T4 GPU(小型配置)。
- 基础模型:
FacebookAI/xlm-roberta-large
- 关键超参数(来自AutoTrain):
- 训练轮次:3
- 批量大小:8
- 学习率:5e-5
- 最大序列长度:512
- 优化器:AdamW
- 调度器:线性预热
- 混合精度:fp16
评估结果
AutoTrain基于其内部验证拆分报告了以下指标:
- 损失: 0.1687
- 准确率 / F1微观: 0.9617(96.2%)
- F1加权: 0.9597(96.0%)
- F1宏观: 0.6470(64.7%)
- (精确率/召回率得分显示类似模式)
解释:
模型在数据集中最常见的文件类型上表现出色,整体准确率和加权F1得分非常高。然而,显著较低的宏观F1得分(64.7%)揭示了一个关键限制:模型在较少出现(少数)文件类型上的表现明显较差。整体准确率主要由对多数类别的正确分类驱动。由于训练数据中固有的类别不平衡,37个类别的性能表现不均。
限制与偏差
- 稀有类别性能: 如评估指标所示,模型识别不常见文件类型的能力显著低于常见类型。用户在对稀有类别依赖预测时应谨慎,并考虑使用置信度分数。
- 数据来源偏差: 训练数据主要来自欧洲和美国。对于其他地理区域或XLM-RoBERTa或训练数据中未充分代表的语言的文件,模型性能未知且可能较低。
- Markdown格式: 模型期望输入文本为Markdown格式,与训练数据类似。纯文本或其他格式可能导致性能下降。
- 分布外数据: 模型只能分类到其训练的37个类型中。无法识别全新或未预见的文件类型。
- 模糊性: 某些文件可能在类别间存在真正的模糊性或边界情况,可能导致低置信度预测或错误分类。
使用方法
可通过Hugging Face transformers
库使用此模型:
from transformers import pipeline
model_repo_id = "FinancialReports/filing-classification-xlmr"
classifier = pipeline("text-classification", model=model_repo_id)
filing_text = """
## ACME公司第四季度业绩
ACME公司今日公布了截至12月31日的第四季度财务业绩...
(在此插入Markdown格式的文件文本)
"""
predictions = classifier(filing_text, top_k=5)
print(predictions)
引用:
@misc{financialreports_filing_classifier_2025,
author = {FinancialReports},
title = {XLM-RoBERTa-Large财务文件分类器},
year = {2025},
publisher = {Hugging Face},
journal = {Hugging Face模型中心},
howpublished = {\url{https://huggingface.co/FinancialReports/filing-classification-xlmr}}, # 假设的URL
}