语言: 英文
标签:
基于T5-base的新闻摘要微调模型 📖✏️🧾
所有荣誉归于 Abhishek Kumar Mishra
谷歌T5 base模型在新闻摘要数据集上进行了微调,用于摘要生成下游任务。
T5模型详情
T5模型由Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, Peter J. Liu在论文《探索文本到文本统一Transformer的迁移学习极限》中提出。以下是论文摘要:
迁移学习是一种强大的自然语言处理(NLP)技术,即模型先在数据丰富的任务上进行预训练,再在下游任务上进行微调。迁移学习的有效性催生了多种方法、方法论和实践。本文通过引入一个将每个语言问题转换为文本到文本格式的统一框架,探索了NLP迁移学习技术的全景。我们的系统性研究比较了数十种语言理解任务中的预训练目标、架构、无标签数据集、迁移方法等因素。通过结合探索中的洞见与规模效应及我们新构建的“巨量清洁爬取语料库”,我们在摘要、问答、文本分类等多个基准任务上取得了最先进的结果。为促进NLP迁移学习的未来研究,我们公开了数据集、预训练模型和代码。

下游任务(摘要生成)详情 - 数据集 📚
新闻摘要数据集
该数据集包含4515个样本,涵盖作者姓名、标题、文章链接、简短文本及完整文章。摘要新闻采集自Inshorts平台,原始文章则爬取自《印度教徒报》、《印度时报》和《卫报》,时间跨度为2017年2月至8月。
模型微调过程 🏋️
训练脚本是基于Abhishek Kumar Mishra创建的Colab笔记本稍作修改的版本,所有荣誉归他所有!
此外,我将模型训练周期延长至6轮。
模型实战演示 🚀
from transformers import AutoModelWithLMHead, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("mrm8488/t5-base-finetuned-summarize-news")
model = AutoModelWithLMHead.from_pretrained("mrm8488/t5-base-finetuned-summarize-news")
def summarize(text, max_length=150):
input_ids = tokenizer.encode(text, return_tensors="pt", add_special_tokens=True)
generated_ids = model.generate(input_ids=input_ids, num_beams=2, max_length=max_length, repetition_penalty=2.5, length_penalty=1.0, early_stopping=True)
preds = [tokenizer.decode(g, skip_special_tokens=True, clean_up_tokenization_spaces=True) for g in generated_ids]
return preds[0]
以**《纽约时报》**(2020/06/09)标题为《乔治·弗洛伊德之死激发社会运动,今日休斯顿举行葬礼》的报道为例:
(原文内容省略)
执行摘要函数:
summarize('After the sound and the fury...', 80)
输出结果:
在休斯顿举行的私人葬礼上。46岁的弗洛伊德将被安葬于母亲墓旁。明尼苏达州一名警察被拍到用膝盖压迫其颈部近九分钟致其死亡。该警察现被控二级过失杀人罪,保释金设为120万美元。
由Manuel Romero/@mrm8488创建 | 领英主页
西班牙制造 ❤