语言:
- 英文
许可证: MIT
标签:
- 摘要生成
- t5-large-摘要模型
- pipeline:摘要生成
缩略图: https://huggingface.co/front/thumbnails/facebook.png
模型索引:
- 名称: sysresearch101/t5-large-finetuned-xsum-cnn
结果:
- 任务:
类型: 摘要生成
名称: 摘要生成
数据集:
名称: xsum
类型: xsum
配置: 默认
拆分: 测试
指标:
- 类型: rouge
值: 36.7656
名称: ROUGE-1
已验证: 是
验证令牌: eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiN2QzMDg4NTM0ZTc5MjAzNTY4MmY1YTRiMWI3M2I2NDdjMTM4ZGNhYzZhOWQzMWI0MjJlYmU3MTg0ZjVjMTEyZSIsInZlcnNpb24iOjF9.AuKHql0LQs0zDQNn7zvySnX50GAC8jEWyYz-LtBgWj0dcad86J8yfHbIDswmgx2ur0S3yttw72qNExag_Fw7Dw
- 类型: rouge
值: 14.6898
名称: ROUGE-2
已验证: 是
验证令牌: eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiZTE3ZTExY2M3MTIwMWY0ODRkZDI1YjU2ZjRkOGJjOGQyYjcxMTMxOWExN2Q0OGNkZmNiYzYzYzVhODY4YzEwOSIsInZlcnNpb24iOjF9.F1Q17sa8IAsW8ouQ2VDLq_VvHDxjuMjVU3rMfvkbmKxAjTDKVTiaG6Eg9uSKIYzgJoDSsxhsZcjH-J0gGQv3Dg
- 类型: rouge
值: 30.0646
名称: ROUGE-L
已验证: 是
验证令牌: eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiYzI1NjE0NmI5Nzc3ODFiNDI5YzVhNjUzNzU1NzA0ZDMwMjFjZDE1YzUxNjZmZTAwZTM0MmVmN2ZkYWUwMjBiZSIsInZlcnNpb24iOjF9.xehN8zOV6050WvoLZIJ-l2zB93jWY_ugcydDDqV06XwdKwZ7l0TI8BoLDOO7Mw7dRmHOWLNruDJZnOnW3_3pCQ
- 类型: rouge
值: 30.0563
名称: ROUGE-LSUM
已验证: 是
验证令牌: eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiZmU0OTVhYTY0ZDJmOTU3OWE5MzgxYzdhNmQ3MjM3YzM2MGIzOGViY2ZkMTI1ZWI4NDMwOTlkODBjOGE4NTE4ZCIsInZlcnNpb24iOjF9.FtNN06HKSgEB1tiWpToEVnNfzhQs9ZR59386YynOY6T6oKWxbIiRyItzYXobNw96lg5c2sE4vdJSfdtbBpkyDA
- 类型: 损失
值: 1.6373405456542969
名称: 损失
已验证: 是
验证令牌: eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiYTVjYzI0MmMyY2IzYTE0NDUxY2FiMDM4Mjk2NTI1NTk0NjFiYTY2OWMxODRjNWJhYjU4ZWU5OTk4Y2E5N2RkOSIsInZlcnNpb24iOjF9.Cz5AQ-B8IAXmf1Xc_7UJ0pI9XKYHxDEwmoP3ZFsS2Wmbk1pUB8o_Y8AErBR8-Q60qR_ndw8eSwrI0EnPohYHCw
- 类型: 生成长度
值: 18.6054
名称: 生成长度
已验证: 是
验证令牌: eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiMWRlMjM5MzAyMjEzYzdkODFmNDk4NDg5NWM4NWIxMTU4YWMxNzZjMGFjOWJiMDdkMjQyMTY0ZGFmYzA2OTA0YiIsInZlcnNpb24iOjF9.IFiGJEsyD7Uhj8bo9SsAgibk9qCXZH6IWaLKULLxBz5N8WXF2vc2Mfg5OThEzdrydPhJInRgp0jd8m-kF5nNCA
基于XSUM-CNN每日邮报数据集训练的T5-large摘要生成模型
微调后的T5 Large摘要生成模型。
排行榜排名
目前在xsum数据集上的摘要生成任务中排名第三(rouge分数),仅次于Facebook的Bart-Large-Xsum和Google的Pegasus-Xsum。
参见:https://huggingface.co/spaces/autoevaluate/leaderboards?dataset=xsum,确保选择任务:摘要生成和排序指标:Rouge分数。
微调语料库
t5-large-finetuned-xsum-cnn
模型基于huggingface的t5-large模型
,使用CNN每日邮报和XSUM数据集进行微调。
加载微调模型
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM, DataCollatorForSeq2Seq, Seq2SeqTrainingArguments, Seq2SeqTrainer
tokenizer = AutoTokenizer.from_pretrained("sysresearch101/t5-large-finetuned-xsum-cnn")
model = model = AutoModelForSeq2SeqLM.from_pretrained("sysresearch101/t5-large-finetuned-xsum-cnn")
待摘要文章 = "..."
input_ids = tokenizer.encode(待摘要文章, return_tensors='pt')
summary_ids = model.generate(input_ids,
min_length=20,
max_length=80,
num_beams=10,
repetition_penalty=2.5,
length_penalty=1.0,
early_stopping=True,
no_repeat_ngram_size=2,
use_cache=True,
do_sample = True,
temperature = 0.8,
top_k = 50,
top_p = 0.95)
summary_text = tokenizer.decode(summary_ids[0], skip_special_tokens=True)
print(summary_text)
输出: <待完成>
如何通过pipeline使用
以下是使用pipeline API的方式:
from transformers import pipeline
summarizer = pipeline("summarization", model="sysresearch101/t5-large-finetuned-xsum-cnn")
文章 = """ 纽约(CNN)当Liana Barrientos 23岁时,她在纽约威彻斯特县结婚。
一年后,她再次在威彻斯特县结婚,但对象是另一个男人,且未与第一任丈夫离婚。
仅18天后,她又结婚了。然后,Barrientos又说了五次“我愿意”,有时两次婚姻之间仅相隔两周。
2010年,她再次结婚,这次是在布朗克斯。在结婚许可证申请中,她声称这是她的“第一次也是唯一一次”婚姻。
现年39岁的Barrientos面临两项“一级提供虚假文书归档”的刑事指控,涉及她在2010年结婚许可证申请中的虚假陈述,根据法庭文件。
检察官称这些婚姻是移民骗局的一部分。
周五,她在布朗克斯州最高法院表示不认罪,据她的律师Christopher Wright称,他拒绝进一步评论。
离开法庭后,Barrientos因涉嫌通过紧急出口潜入纽约地铁而被捕,并被指控盗窃服务和刑事侵入,警方发言人Annette Markowski侦探说。总计,Barrientos已结婚10次,其中9次婚姻发生在1999年至2002年之间。
所有这些婚姻要么发生在威彻斯特县、长岛、新泽西州,要么发生在布朗克斯。据检察官称,她被认为仍与四名男子保持婚姻关系,曾一度同时与八名男子结婚。
检察官称,移民骗局涉及她的一些丈夫,他们在婚后不久申请了永久居留身份。
任何离婚都只在申请获批后发生。目前尚不清楚是否有任何男子会被起诉。
此案由移民和海关执法局及国土安全部调查司转交给布朗克斯地区检察官办公室。其中七名男子来自所谓的“红旗”国家,包括埃及、土耳其、格鲁吉亚、巴基斯坦和马里。
她的第八任丈夫Rashid Rajput在联合反恐任务组的调查后,于2006年被驱逐回其祖国巴基斯坦。
如果定罪,Barrientos面临最高四年监禁。她的下一次出庭定于5月18日。
"""
print(summarizer(文章, max_length=130, min_length=30, do_sample=False))
>>> [{'summary_text': '现年39岁的Liana Barrientos面临两项“一级提供虚假文书归档”的刑事指控。总计,她已结婚10次,其中9次婚姻发生在1999年至2002年之间。据信她仍与四名男子保持婚姻关系。'}]