库名称:transformers
许可证:mit
语言:
- en
评估指标:
- rouge
流水线标签:summarization
基础模型:
- google/pegasus-large
Pegasus Large隐私政策摘要模型V2
基于谷歌Pegasus Large模型,针对隐私政策文件及其对应摘要进行微调。
模型详情
- 模型类型:基于Transformer的抽象摘要模型
- 架构:谷歌PEGASUS Large
- 微调数据集:精选的隐私政策文件及其对应摘要数据集
- 用途:将冗长复杂的隐私政策浓缩为简洁易读的摘要
- 局限性:可能遗漏隐私政策中的关键细节、法律术语或上下文相关的内容
用途
直接使用
本模型可用于将冗长的隐私政策文件摘要为简洁版本,适用于需要自动化文档摘要的应用场景,如合规性分析和法律文件处理。
下游使用
可进一步微调该模型,用于法律、商业或政府政策文件等特定领域的摘要任务。
超出适用范围
- 法律建议:该模型不能替代专业法律咨询
- 非隐私相关文本摘要:对隐私政策以外的普通文本摘要效果可能下降
- 高风险决策:未经人工审核,不得用于关键法律或合规决策
偏差、风险与局限性
风险
- 摘要偏差:模型可能过度强调隐私政策的某些部分,同时遗漏关键信息
- 误解风险:法律术语可能无法准确转化为通俗摘要
- 数据敏感性:若应用于不完整或有偏差的数据集,摘要结果可能产生误导
建议
- 建议对摘要进行人工验证,尤其是法律和合规用例
- 用户应了解训练数据中的潜在偏差
- 应告知用户(包括直接和下游用户)该模型的风险、偏差和局限性。需更多信息以提供进一步建议
快速开始
使用以下代码快速启用模型:
import torch
from transformers import PegasusTokenizer, PegasusForConditionalGeneration
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model_checkpoint = "AryehRotberg/Pegasus-Large-Privacy-Policy-Summarization-V2"
model = PegasusForConditionalGeneration.from_pretrained(model_checkpoint).to(device)
tokenizer = PegasusTokenizer.from_pretrained(model_checkpoint)
def summarize(text):
inputs = tokenizer(
f"Summarize the following document: {text}\nSummary: ",
padding="max_length",
truncation=True,
max_length=1024,
return_tensors="pt",
).to(device)
outputs = model.generate(**inputs)
return tokenizer.decode(outputs[0], skip_special_tokens=True)
训练详情
训练与评估数据
文档和摘要提取自ToS;DR网站的API,仅使用经过全面审查且具有评级的网站文档。
训练流程
预处理
使用TextRank算法提取文档和摘要的前n个句子(文档最多30句,摘要最多20句)
使用BeautifulSoup库解析HTML文本,并应用正则表达式去除多余空格
数据集按0.2比例划分验证集,随机种子设为42
训练超参数
- 训练轮次:10
- 权重衰减:0.01
- 批次大小:2(训练和评估)
- 日志步长:10
- 预热步数:500
- 评估策略:按轮次
- 保存策略:按轮次
- 最优模型指标:ROUGE-1
- 最终加载最优模型:是
- 预测模式:predict_with_generate=True
- 优化器:Adam(学习率0.001)
- 调度器:带预热的线性调度器(预热步数500,总训练步数1500)
- 报告工具:MLflow
评估
指标
使用ROUGE分数(ROUGE-1、ROUGE-2、ROUGE-L)衡量摘要质量
结果
- rouge1:0.5141839409652631
- rouge2:0.2895850459169673
- rougeL:0.27764589200709305
- rougeLsum:0.2776501244969102