语言: 葡萄牙语
许可证: MIT
标签:
- t5
- pytorch
- pt
- pt-br
- 摘要生成
- 抽象摘要生成
数据集:
- csebuetnlp/xlsum
推理参数:
最小长度: 32
最大长度: 256
前k个: 5
示例:
- 文本: '男子威尔默·安东尼奥·马林,化名雨果,据称是哥伦比亚最大反政府武装“哥伦比亚革命武装力量”(Farc)的高级指挥官。他被控在二月对一家夜总会发动袭击,造成35人死亡、160人受伤。雨果还涉嫌参与杀害日本商人村松亲夫,后者在遭绑架近三年后于十一月被发现中枪身亡。赎金当局曾要求支付1900万美元(约合5500万雷亚尔)赎金以释放村松亲夫。哥伦比亚当局认为,逮捕雨果是对Farc在波哥大组织结构的重大打击。威尔默·安东尼奥·马林被指控运营一个以富商和外籍人士为目标的绑架网络,其惯用手法是在街头绑架受害者并带至游击队山区基地。'
示例标题: "新闻1"
- 文本: '圣路易斯司法拘留中心(CCPJ)的囚犯暴动于本周三(17日)下午早些时候结束。囚犯交出武器后,警方对设施内部展开搜查。骚乱始于周二(16日)举行的儿童节庆祝活动期间。16名儿童和14名成人最终获释。据警方消息,暴动主谋已被转移至马拉尼昂州首府的佩德林哈斯监狱。囚犯获得了该设施主管的保证,承诺不会进行报复或新的转移。囚犯曾试图在庆祝活动期间逃跑,但计划败露。暴动初期有四人受伤,包括一名护理助理和一名狱警。设施一度断水断电,人质释放谈判于周三上午重启。警方称,囚犯因上周警察罢工期间引发另一场暴动后,担心会遭到大规模转移。CCPJ设计容量约80人,但目前关押了203名男性囚犯。'
示例标题: "新闻2"
葡萄牙语T5抽象摘要模型(PTT5 Summ)
简介
PTT5 Summ是基于PTT5微调的巴西葡萄牙语文本抽象摘要生成模型。该模型在以下数据集上微调:RecognaSumm、WikiLingua、XL-Sum、TeMário和CSTNews。
更多信息请访问PTT5 Summ仓库。
可用模型
使用示例
from transformers import T5Tokenizer
from transformers import T5Model, T5ForConditionalGeneration
token_name = 'unicamp-dl/ptt5-base-portuguese-vocab'
model_name = 'phpaiola/ptt5-base-summ-xlsum'
tokenizer = T5Tokenizer.from_pretrained(token_name)
model_pt = T5ForConditionalGeneration.from_pretrained(model_name)
text = '''
“巴西利率下降趋势真实可见。”梅雷莱斯在华盛顿参加国际货币基金组织(IMF)和世界银行(Bird)周末会议期间与美国银行家和投资者进行系列会谈时表示。
巴西央行行长认为,政府当前经济政策及将通胀率维持在目标区间内的举措是确保长期利率下降的关键因素。
“但重要的是我们不能仅关注短期,必须着眼于中长期。”梅雷莱斯强调。
他指出,央行为控制通胀所做的努力将促使利率逐步下降。
年度央行
周日,梅雷莱斯出席了《银行家》杂志颁发的“年度央行”奖项仪式。
“这是对我们工作的重大认可,表明巴西正走在正确轨道上。”他说道。
梅雷莱斯表示,巴西央行正被视为坚定执行通胀目标的机构。
“当价格制定者开始相信通胀将达标且巴西严肃对待此事时,就会产生重要收益。”他补充道。
央行行长还表示,周末接触的投资者对巴西政治危机并未表现出优先关注。
'''
inputs = tokenizer.encode(text, max_length=512, truncation=True, return_tensors='pt')
summary_ids = model_pt.generate(inputs, max_length=256, min_length=32, num_beams=5, no_repeat_ngram_size=3, early_stopping=True)
summary = tokenizer.decode(summary_ids[0])
print(summary)