fine_tuned_t5_summarizer开源法律文本摘要模型 - 免费生成长短形式案件摘要

首页

Fine Tuned T5 Summarizer

由 manjunathainti 开发

基于T5架构微调的法律文本摘要模型，可生成短/长两种形式的法律案件摘要

文本生成

Transformers

#法律文本摘要 #T5微调 #双长度摘要

下载量 101

发布时间 : 11/30/2024

模型简介

专门针对法律文档优化的文本摘要模型，能够将复杂法律案件生成简洁的短摘要和详细的长摘要，助力法律从业者快速把握核心要义与深度分析。

模型特点

双模式摘要

同时支持生成150token的短摘要和300token的长摘要

法律领域优化

针对Multi-LexSum法律数据集微调，理解专业法律术语

高效推理

在NVIDIA Tesla V100上仅需4小时完成训练

模型能力

法律文本理解

要点提取

长文档摘要

专业术语处理

使用案例

法律文档管理

案件快速浏览

为冗长法律文档生成短摘要

BERT精确率0.84（短摘要）

深度案情分析

生成包含关键论点的长摘要

BERT精确率0.81（长摘要）

法律研究辅助

判例研究

自动提取相似案件的核心要素

🚀 微调T5摘要生成器模型卡片

本模型是T5基础模型的微调版本，旨在将法律文本总结为简洁的长短摘要。它能够高效处理复杂的法律案件，便于快速洞察和详细分析。

🚀 快速开始

from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

model_name = "manjunathainti/fine_tuned_t5_summarizer"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSeq2SeqLM.from_pretrained(model_name)

# 示例输入
input_text = "Insert a legal case description here."
input_ids = tokenizer(input_text, return_tensors="pt").input_ids

# 生成摘要
summary_ids = model.generate(input_ids, max_length=150, num_beams=4, length_penalty=2.0)
summary = tokenizer.decode(summary_ids[0], skip_special_tokens=True)
print("Generated Summary:", summary)

✨ 主要特性

专为法律案件摘要生成而开发，可处理长法律文档。
生成两种类型的摘要：简洁的短摘要用于快速回顾，详细的长摘要用于深入分析。
可直接用于总结英文法律案件文本，也能集成到法律文档管理系统和法律研究与合规的AI工具中。

📚 详细文档

模型详情

模型描述

这是为法律案件摘要开发的微调T5摘要生成器的模型卡片。该模型经过专门优化，可处理长法律文档并生成两种类型的摘要：

短摘要：用于快速回顾的简洁要点。
长摘要：用于深入分析的详细见解。

属性	详情
开发者	Manjunatha Inti
资助方	自筹资金
共享者	Manjunatha Inti
模型类型	用于摘要生成的微调Transformer模型
语言（NLP）	英语
许可证	Apache 2.0
微调基础模型	T5-base

模型来源

仓库：[待添加GitHub仓库URL]
演示：[待添加Colab笔记本]
Hugging Face上的模型：https://huggingface.co/manjunathainti/fine_tuned_t5_summarizer

使用方式

直接使用

该模型可直接用于总结法律案件文本，对英文法律文档效果最佳。

下游使用

该模型可集成到以下系统中：

法律文档管理系统。
用于法律研究和合规的AI工具。

超出适用范围的使用

未经额外微调用于非法律文档。
用于英语以外语言的摘要生成。

偏差、风险和局限性

偏差

该模型可能反映训练数据中存在的偏差，例如司法管辖区重点或数据集中固有的社会偏差。

风险

可能会遗漏关键的法律细节。
模型的输出不应替代专业的法律意见。

建议

法律专家应始终审查输出结果。
避免将其用于需要完全精确的法律任务。

训练数据

数据集：Multi-LexSum
预处理：使用分词技术对数据集进行预处理，以用于摘要生成任务。

训练过程

预处理

对数据集进行分词和截断处理。
输入序列上限为1024个标记。
摘要限制为：
- 短摘要150个标记。
- 长摘要300个标记。

训练超参数

学习率：5e - 5
批量大小：1（梯度累积步数：8）
训练轮数：3
优化器：AdamW
精度：混合精度（fp16）

速度、大小、时间

训练时间：约4小时
检查点大小：约892 MB
硬件：NVIDIA Tesla V100

评估

测试数据、因素和指标

测试数据：在Multi-LexSum数据集的validation分割上进行验证，包含4818个示例。
指标：
- bert_score短摘要精度：0.84
- bert_score长摘要精度：0.81

结果

该模型为法律文档生成可靠的短摘要和长摘要，保持连贯性和相关性。

总结

微调后的T5模型在总结法律文档方面表现出色，取得了有竞争力的BERT分数。

模型审查

可解释性

该模型生成人类可读的摘要，对于法律领域的最终用户具有很高的可解释性。

环境影响

碳排放 可使用Lacoste等人（2019）中提出的机器学习影响计算器进行估算。
- 硬件类型：NVIDIA Tesla V100
- 使用时长：约4小时
- 云服务提供商：Google Colab
- 计算区域：美国
- 估计碳排放：由于训练时间短，排放量极小。