led-financial_summarization-genai15开源模型 - 免费助力金融文本快速摘要生成

首页

Led Financial Summarization Genai15

由 fahil2631 开发

专为金融文本摘要任务微调的LED模型，基于pszemraj/led-large-book-summary，由华威商学院GEN AI GROUP 15团队开发

文本生成

Safetensors

其他#金融文档摘要 #长文本处理 #ChatGPT风格摘要

下载量 15

发布时间 : 5/7/2025

模型简介

用于总结财报和报表等长篇金融文档的抽象摘要模型，能处理长达8000token的金融文档并保持核心内容连贯性

模型特点

长文档处理能力

通过全局与局部注意力机制高效处理长达8000token的金融文档

金融领域优化

在EDGAR-CORPUS金融数据集上微调，专门针对财报、10-K文件等金融文档

高质量摘要生成

使用ChatGPT生成的高质量摘要作为训练目标，确保摘要风格统一且信息丰富

模型能力

金融文本摘要

长文档处理

抽象摘要生成

使用案例

财务报告处理

年度财务报告摘要

自动生成10-K年度报告的简明执行摘要

ROUGE-1得分0.5121，显著优于通用摘要模型

季度财报浓缩

从冗长的季度财报中提取关键财务指标和业务进展

金融监管申报

EDGAR文件摘要

为美国SEC EDGAR系统中的申报文件生成监管摘要

🚀 LED金融文本摘要模型

本模型是针对金融文本摘要任务微调的LED模型，旨在对财务报告、报表等长金融文档进行摘要处理。该模型基于LED（Longformer Encoder - Decoder）架构，借助全局和局部注意力机制，能够高效处理长文档。

🚀 快速开始

你可以使用简单的管道或自定义全局注意力掩码设置，来开始使用 led-financial_summarization-genai15 模型对长金融文档进行摘要处理。

💻 使用示例

基础用法

import torch
from transformers import pipeline

hf_name = 'fahil2631/led-financial_summarization-genai15'

summarizer = pipeline(
    "summarization",
    model=hf_name,
    tokenizer=hf_name,
    device=0 if torch.cuda.is_available() else -1,
)

wall_of_text = """Your long financial text goes here."""

result = summarizer(
    wall_of_text,
    min_length=16,
    max_length=256,
    no_repeat_ngram_size=3,
    encoder_no_repeat_ngram_size=3,
    repetition_penalty=2.5,
    num_beams=4,
    early_stopping=True,
)

print(result[0]["summary_text"])

高级用法（使用全局注意力掩码）

import torch
from transformers import pipeline,AutoTokenizer, AutoModelForSeq2SeqLM

hf_name = 'fahil2631/led-financial_summarization-genai15'

summarizer_1 = pipeline(
    "summarization",
    hf_name,
    device=0 if torch.cuda.is_available() else -1,
)

wall_of_text = """Your long financial text goes here."""


# Input tokenization
inputs = tokenizer(
    wall_of_text,
    return_tensors="pt",
    truncation=True,
    max_length=8000
)

# Mglobal attention mask
global_attention_mask = torch.zeros(inputs["input_ids"].shape, dtype=torch.long)

# Set first and last token to get the global attention
global_attention_mask[:, 0] = 1
global_attention_mask[:, -1] = 1

#Generate summary
model_1 = AutoModelForSeq2SeqLM.from_pretrained(hf_name).to(device)  # Move the model to the same device as input

summary_ids_1 = model_1.generate(
    inputs["input_ids"].to(device),  # Move input to the same device
    attention_mask=inputs["attention_mask"].to(device),  # Move attention mask to the same device
    global_attention_mask=global_attention_mask.to(device),  # Move global attention mask to the same device
    max_length=256,
    min_length=16,
    num_beams=4,
    repetition_penalty=2.5,
    no_repeat_ngram_size=3,
    early_stopping=True
)

#Decode the summary result
result_globalmask_pretrained = tokenizer.decode(summary_ids_1[0], skip_special_tokens=True)
result_globalmask_pretrained

✨ 主要特性

该模型基于LED架构，能有效处理长金融文档（输入最多支持8000个标记），同时保持关键内容和连贯性。
模型在处理金融文本摘要任务时，在各项ROUGE指标上均优于基于BART的模型和基础LED模型，能更好地捕捉金融文档上下文信息，生成连贯且信息丰富的摘要。

📦 安装指南

文档未提及安装步骤，故跳过该章节。

📚 详细文档

模型详情

模型描述

fahil2631/led-financial_summarization-genai15 又名 LED-FINAL-GENAI15，是 pszemraj/led-large-book-summary 模型的微调版本，适用于金融摘要任务。它由来自 华威商学院（2024/2025） 的 GEN AI GROUP 15（Fakhri、Amaan、Aisyah、Aditya、Jerry、Mewmew、Ridhi、Chinmay） 开发。

该模型在 kritsadaK/EDGAR-CORPUS-Financial-Summarization 数据集上进行训练，该数据集包含来自EDGAR（1993 - 2020）的10 - K文件等长篇金融文本。摘要主要由ChatGPT生成（占比70%），以确保风格和格式的一致性。

属性	详情
模型类型	基于LED架构的金融文本摘要模型
训练数据	`kritsadaK/EDGAR-CORPUS-Financial-Summarization` 数据集，包含1993 - 2020年美国上市公司提交给美国证券交易委员会的财务报告（主要是10 - K文件）
开发团队	GenAI Group 15 2024/2025，华威商学院
微调基础模型	pszemraj/led-large-book-summary
任务类型	抽象摘要（金融领域）
语言	英语

模型来源

预期用途

该模型专为需要对长金融文档进行摘要的任务而设计，具体用例包括：

对季度和年度财务报告进行摘要。
为财务文件生成执行摘要。

用户（直接用户和下游用户）应了解该模型的风险、偏差和局限性。如需进一步建议，还需更多信息。

训练详情

训练数据

该模型在 kritsadaK/EDGAR-CORPUS-Financial-Summarization 数据集的过滤子集上进行训练，该数据集包含1993年至2020年间美国上市公司提交给美国证券交易委员会的财务报告（主要是10 - K文件）。

每个文档都配有由大语言模型（ChatGPT或Claude）生成的抽象摘要。为确保一致性和风格统一，仅保留 ChatGPT生成的摘要（约占数据集的70%）用于训练。数据集使用基于哈希文档ID的分组拆分方法划分为训练集、验证集和测试集，以防止内容泄露。

使用的总样本数：6664（仅ChatGPT生成的样本）
- 训练集：5331
- 验证集：666
- 测试集：667
输入字段：input（原始金融文档）、summary（目标文本）、model（摘要生成器）
过滤标准：model == "ChatGPT"

这种预处理方式确保了摘要格式更加一致，提高了训练的收敛性。

训练过程

微调数据集：EDGAR - CORPUS - Financial - Summarization
训练批次大小：1（采用梯度累积）
训练轮数：3
优化器：采用8位精度的AdamW
学习率：3e - 5
评估频率：每500步进行一次评估
检查点保存频率：每1000步保存一次
使用的GPU：NVIDIA L4 GPU

训练超参数

训练机制：FP16混合精度
批次大小：1（梯度累积步数 = 2，有效批次大小 = 2）
学习率：3e - 5
训练轮数：3
优化器：AdamW（通过 bitsandbytes 实现8位精度）
评估步数：每500步
检查点保存：每1000步
最大输入长度：8000个标记
最大目标长度：256个标记
束搜索：4束
重复惩罚：2.5
无重复n - 元语法大小：3
全局注意力掩码：在第一个标记上启用

速度、大小和时间

使用的GPU：NVIDIA L4
训练运行时间：每1000步约2.5小时（总共7995步）
训练吞吐量：约1.68个样本/秒
检查点大小：约1.84 GB（.safetensors）
保存的模型大小：约1.84 GB

评估

评估指标

该模型使用标准的ROUGE指标进行评估：

ROUGE - 1：衡量系统摘要和参考摘要之间单个单词（一元语法）的重叠程度。
ROUGE - 2：衡量两个连续单词（二元语法）的重叠程度。
ROUGE - L：衡量系统摘要和参考摘要之间的最长公共子序列。
ROUGE - Lsum：ROUGE - L的多句子摘要变体。

评估结果

在从测试集中随机选择的20个样本上获得了以下结果：

模型	ROUGE - 1	ROUGE - 2	ROUGE - L	ROUGE - Lsum
led - financial_summarization - genai15	0.5121	0.2089	0.2987	0.4359
BART - financial - summarization	0.4574	0.1976	0.2728	0.3876
LED - large - book - summary	0.3066	0.0470	0.1391	0.2128