filing-classification-xlmr开源财务文件分类模型，免费部署支持37种文件类型分类

首页

Filing Classification Xlmr

由 FinancialReports 开发

基于XLM-RoBERTa-Large微调的财务文件分类模型，支持37种文件类型的分类任务。

文本分类

Transformers

支持多种语言开源协议:Apache-2.0 #财务文件分类 #多语言支持 #高准确率

下载量 40

发布时间 : 4/5/2025

模型简介

该模型专为财务文件的多元文本分类设计，能够将输入文本（Markdown格式）分类为37个预定义的文件类型之一，如年度报告、季度报告等。

模型特点

多语言支持

基于XLM-RoBERTa-Large架构，能够处理多种语言的财务文件。

高准确率

在常见文件类型上达到96.2%的准确率，适合主流财务文件分类需求。

Markdown格式优化

专门针对Markdown格式的财务文件进行优化，确保最佳分类性能。

模型能力

财务文件分类

多语言文本处理

Markdown格式解析

使用案例

金融分析

自动文件归档

自动将公司财务文件分类到预定义的37个类别中，提高归档效率。

准确率高达96.2%（常见类别）

合规检查

帮助合规团队快速识别和分类各类财务报告，确保符合监管要求。

数据管理

数据集构建

为金融数据分析项目自动分类和标记大量财务文件。

🚀 金融报告文件分类器模型卡片

本模型基于Hugging Face的AutoTrain训练，可对金融报告文件进行多类别文本分类，能将输入文本准确分类到37种预定义的文件类型中，在常见文件类型上表现出色。

🚀 快速开始

你可以通过Hugging Face的transformers库使用此模型：

from transformers import pipeline

# 加载分类器管道（请替换为你在Hugging Face Hub上的实际模型仓库ID）
model_repo_id = "FinancialReports/filing-classification-xlmr"
classifier = pipeline("text-classification", model=model_repo_id)

# 示例用法
filing_text = """
## ACME Corp Q4 Results

ACME Corporation today announced financial results for its fourth quarter ended December 31...
(Insert markdown filing text here)
"""

# 获取前5个预测结果及其得分（置信度）
predictions = classifier(filing_text, top_k=5)
print(predictions)
# 预期输出格式:
# [{'label': 'Quarterly Report', 'score': 0.98}, {'label': 'Earnings Release', 'score': 0.01}, ...]

# --- 获取所有类别的概率 ---
# from transformers import AutoTokenizer, AutoModelForSequenceClassification
# import torch
#
# tokenizer = AutoTokenizer.from_pretrained(model_repo_id)
# model = AutoModelForSequenceClassification.from_pretrained(model_repo_id)
# inputs = tokenizer(filing_text, return_tensors="pt", truncation=True, padding=True, max_length=512)
# with torch.no_grad():
#     logits = model(**inputs).logits
# probabilities = torch.softmax(logits, dim=-1)[0] # 获取第一个项目的概率
# results = [{"label": model.config.id2label[i], "score": prob.item()} for i, prob in enumerate(probabilities)]
# results.sort(key=lambda x: x["score"], reverse=True)
# print(results)

✨ 主要特性

多语言支持：支持英语和多种欧洲语言，基于XLM - RoBERTa基础模型，适用于多语言金融文件分类。
高精度分类：在常见金融文件类型上表现出很高的准确率和加权F1分数，能有效对金融报告文件进行分类。
易于使用：可通过Hugging Face的transformers库轻松调用，方便集成到各类应用中。

📦 安装指南

文档未提及安装步骤，暂不展示。

💻 使用示例

基础用法

from transformers import pipeline

# 加载分类器管道（请替换为你在Hugging Face Hub上的实际模型仓库ID）
model_repo_id = "FinancialReports/filing-classification-xlmr"
classifier = pipeline("text-classification", model=model_repo_id)

# 示例用法
filing_text = """
## ACME Corp Q4 Results

ACME Corporation today announced financial results for its fourth quarter ended December 31...
(Insert markdown filing text here)
"""

# 获取前5个预测结果及其得分（置信度）
predictions = classifier(filing_text, top_k=5)
print(predictions)

高级用法

# --- 获取所有类别的概率 ---
from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch

tokenizer = AutoTokenizer.from_pretrained(model_repo_id)
model = AutoModelForSequenceClassification.from_pretrained(model_repo_id)
inputs = tokenizer(filing_text, return_tensors="pt", truncation=True, padding=True, max_length=512)
with torch.no_grad():
    logits = model(**inputs).logits
probabilities = torch.softmax(logits, dim=-1)[0] # 获取第一个项目的概率
results = [{"label": model.config.id2label[i], "score": prob.item()} for i, prob in enumerate(probabilities)]
results.sort(key=lambda x: x["score"], reverse=True)
print(results)

📚 详细文档

模型详情

模型名称：FinancialReports/filing-classification-xlmr（基于AutoTrain项目和组织的假设仓库ID）
描述：该模型是FacebookAI/xlm - roberta - large的微调版本，用于对金融报告文件进行多类别文本分类。它将输入文本（预期为Markdown格式）分类到37个预定义的文件类型类别之一。
基础模型：[FacebookAI/xlm - roberta - large](https://huggingface.co/FacebookAI/xlm - roberta - large)
开发者：FinancialReports (financialreports.eu)
模型版本：1.0
微调框架：Hugging Face AutoTrain

预期用途

主要用途：根据金融报告文件的文本内容，自动将其分类到37个类别之一（如年度报告、季度报告、董事交易等）。
主要用户：金融分析师、数据提供商、监管合规团队、与FinancialReports相关的研究人员。
非预期用途：该模型不适用于情感分析、命名实体识别或超出37种金融文件类型定义的分类任务。对于与训练数据差异较大的文件类型，其性能无法保证。

训练数据

数据集：该模型在约14,233份金融报告文件的组合数据集上进行了微调。
数据来源：
- 约9,700份通过Labelbox进行自定义标注的文件，可能来自欧洲公司（可能是多语言的）。
- 约4,500份来自美国EDGAR数据库的文件（英语）。
预处理：在训练前，文档文本被转换为Markdown格式。AutoTrain处理了训练/验证集的划分（通常为80/20或90/10）。
标签：数据集涵盖37种不同的文件类型分类。由于数据来源的原因，存在类别不平衡的情况，某些文件类型比其他类型更常见。

训练过程

框架：在Hugging Face Space中运行的Hugging Face AutoTrain UI。
硬件：Nvidia T4 GPU（小配置）。
基础模型：FacebookAI/xlm - roberta - large
关键超参数（来自AutoTrain）：
- 训练轮数（Epochs）：3
- 批次大小（Batch Size）：8
- 学习率（Learning Rate）：5e - 5
- 最大序列长度（Max Sequence Length）：512
- 优化器（Optimizer）：AdamW
- 调度器（Scheduler）：线性预热
- 混合精度（Mixed Precision）：fp16

评估结果

AutoTrain基于其内部验证集划分报告了以下指标：

指标	值
损失（Loss）	0.1687
准确率/微观F1（Accuracy / F1 Micro）	0.9617 (96.2%)
加权F1（F1 Weighted）	0.9597 (96.0%)
宏F1（F1 Macro）	0.6470 (64.7%)

解读：该模型在整体准确率和加权F1分数上表现非常高，表明在数据集中最常见的文件类型上表现出色。然而，较低的宏F1分数（64.7%）揭示了一个关键限制：模型在处理不太常见（少数）的文件类型时存在较大困难。高整体准确率主要是由正确分类多数类别驱动的。由于训练数据中固有的类别不平衡，模型在所有37个类别上的性能参差不齐。

局限性和偏差

稀有类别的性能：如评估指标所示，模型正确识别不常见文件类型的能力明显低于常见类型。用户在依赖稀有类别的预测时应谨慎，并考虑使用置信度分数。
数据源偏差：训练数据主要来自欧洲和美国。该模型在处理来自其他地理区域或使用XLM - RoBERTa或训练数据中未充分代表的语言编写的文件时，其性能未知且可能较低。
Markdown格式：模型期望输入文本为Markdown格式，与训练数据类似。在纯文本或其他格式上的性能可能会下降。
分布外数据：该模型只能将文档分类到其训练的37种类型中，无法识别全新或意外的文件类型。
歧义性：一些文件可能在类别之间存在真正的歧义或边界模糊，可能导致低置信度预测或错误分类。

引用信息

@misc{financialreports_filing_classifier_2025,
  author    = {FinancialReports},
  title     = {XLM-RoBERTa-Large Financial Filing Classifier},
  year      = {2025},
  publisher = {Hugging Face},
  journal   = {Hugging Face Model Hub},
  howpublished = {\url{[https://huggingface.co/FinancialReports/filing-classification-xlmr](https://www.google.com/search?q=https://huggingface.co/FinancialReports/filing-classification-xlmr)}} # Assumed URL
}