Pegasus Large Privacy Policy Summarization V2

P

Pegasus Large Privacy Policy Summarization V2

由 AryehRotberg 开发

基于谷歌Pegasus Large模型微调，专门用于将冗长的隐私政策文件摘要为简洁版本。

英语开源协议:MIT #隐私政策摘要 #法律文本浓缩 #ROUGE优化

下载量 13

发布时间 : 2/9/2025

模型简介

该模型针对隐私政策文件及其对应摘要进行微调，能够将复杂的法律文本浓缩为易读的摘要，适用于合规性分析和法律文件处理。

模型特点

专业领域微调

针对隐私政策文本进行专门优化，能够更好地处理法律术语和复杂条款。

高质量摘要

在ROUGE指标上表现良好，能够生成连贯且信息丰富的摘要。

易于集成

提供简单的API接口，可轻松集成到现有系统中。

模型能力

法律文本摘要

隐私政策分析

文档浓缩

使用案例

法律合规

隐私政策快速理解

帮助用户快速理解冗长的隐私政策条款

生成简洁易读的摘要，ROUGE-1得分0.514

合规性分析

辅助企业进行隐私政策合规性检查

识别关键隐私条款，提高审查效率

商业应用

用户协议摘要

为终端用户提供简化的服务条款说明

提升用户体验和透明度

🚀 飞马大模型隐私政策摘要生成器V2

本项目基于谷歌的Pegasus大模型，针对隐私政策文档及其对应摘要进行了微调。它能够将冗长复杂的隐私政策总结为简洁易读的内容，为自动化文档摘要处理提供了有效的解决方案。

🚀 快速开始

使用以下代码开始使用该模型：

import torch
from transformers import PegasusTokenizer, PegasusForConditionalGeneration

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model_checkpoint = "AryehRotberg/Pegasus-Large-Privacy-Policy-Summarization-V2"
model = PegasusForConditionalGeneration.from_pretrained(model_checkpoint).to(device)
tokenizer = PegasusTokenizer.from_pretrained(model_checkpoint)

def summarize(text):
    inputs = tokenizer(
        f"Summarize the following document: {text}\nSummary: ",
        padding="max_length",
        truncation=True,
        max_length=1024,
        return_tensors="pt",
    ).to(device)

    outputs = model.generate(**inputs)

    return tokenizer.decode(outputs[0], skip_special_tokens=True)

✨ 主要特性

模型类型：基于Transformer的抽象摘要生成模型。
架构：谷歌Pegasus大模型。
微调数据集：从ToS;DR网站API提取的隐私政策文档及其对应摘要，仅使用经过全面审核且有评级的网站文档。
预期用途：将冗长复杂的隐私政策总结为简洁易读的摘要，适用于需要自动化文档摘要的应用，如合规性分析和法律文档处理。
局限性：可能会遗漏隐私政策中的关键细微差别、法律术语或依赖上下文的细节。

📚 详细文档

用途

直接使用

该模型可用于将冗长的隐私政策文档总结为简洁的摘要，适用于需要自动化文档摘要的应用，如合规性分析和法律文档处理。

下游使用

该模型可进一步针对与法律、商业或政府政策文档相关的特定领域摘要任务进行微调。

超出适用范围的使用

法律建议：该模型不能替代专业的法律咨询。
非隐私相关文本的摘要：在处理隐私政策之外的一般文本时，性能可能会下降。
高风险决策：在没有人工监督的情况下，不应将其用于关键的法律或合规决策。

偏差、风险和局限性

风险

摘要偏差：模型可能会过度强调隐私政策的某些部分，而遗漏关键信息。
误解：法律术语可能无法在通俗易懂的摘要中准确体现。
数据敏感性：如果应用于不完整或有偏差的数据集，摘要结果可能会产生误导。

建议

建议对摘要进行人工验证，特别是在法律和合规性用例中。
用户应意识到训练数据中可能存在的偏差。
直接用户和下游用户都应了解模型的风险、偏差和局限性。如需进一步建议，还需更多信息。

训练详情

训练和评估数据

文档和摘要从ToS;DR网站的API中提取，仅使用经过全面审核且有评级的网站文档。

训练过程

预处理

使用TextRank算法从文档和摘要中提取前n个句子，文档最多提取30个句子，摘要最多提取20个句子。使用BeautifulSoup库解析HTML文本，并使用正则表达式去除多余空格。然后将数据集划分为训练集和验证集，测试集大小为0.2，随机种子为42。

训练超参数

轮数：10
权重衰减：0.01
批量大小：2（训练和评估）
日志记录步数：10
热身步数：500
评估策略：按轮次
保存策略：按轮次
最佳模型指标：ROUGE-1
结束时加载最佳模型：是
预测模式：predict_with_generate=True
优化器：Adam，学习率为0.001
调度器：带热身的线性调度器，热身步数为500，训练步数为1500
报告工具：MLflow

评估

指标

使用ROUGE分数（ROUGE-1、ROUGE-2、ROUGE-L）来衡量摘要质量。

结果

rouge1：0.5141839409652631
rouge2：0.2895850459169673
rougeL：0.27764589200709305
rougeLsum：0.2776501244969102

📄 许可证

本项目采用MIT许可证。

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24