许可证: MIT
标签:
- t5
- pytorch
- pt
- pt-br
- 摘要生成
- 抽象摘要生成
推理参数:
- 最小长度: 32
- 最大长度: 256
- 前k个候选: 5
示例:
- 文本: >-
美国总统拜登本周一(28日)表示,美国人无需担心核战争。此番言论发表前一天,俄罗斯总统普京下令俄核力量进入最高戒备状态。美国本周一表示未监测到俄罗斯核态势有"实质性"变化。五角大楼高级官员向记者表示:"我们仍在密切监控局势",并补充道:"目前尚未看到其决定导致的实质性变化"。该官员承认"难以揣测普京命令背后的意图",但谴责"提及或威胁使用核力量"的行为"毫无意义且显著升级了"对邻国乌克兰的入侵,重申北约"从未"威胁俄罗斯。
示例标题: 新闻1
- 文本: >-
路透社记者Sam Nussey报道:索尼游戏业务高管表示,公司计划通过新投资强化PC和移动端布局。PlayStation 5制造商正与资金雄厚的对手争夺人才,同时行业并购活动激增。PlayStation Studios负责人Hermen Hulst接受路透社采访时称:"加强PC、移动端和实时服务游戏的扩展投资对我们极具可能性"。以《蜘蛛侠》《战神》等单机游戏闻名的索尼,已规划雄心勃勃的跨平台战略,包括36亿美元收购《命运》系列开发商Bungie,参股日本FromSoftware公司(《艾尔登法环》销量超1660万份),并加大游戏影视化力度,如全球票房超4亿美元的《神秘海域》电影和HBO明年播出的《最后生还者》剧集。分析师预计索尼将继续收购工作室,以应对微软690亿美元收购动视暴雪带来的竞争。公司同时面临PS5供应链短缺问题,并正为明年初发布的PS VR2开发定制游戏如《地平线:山之呼唤》。
示例标题: 新闻2
数据集:
- recogna-nlp/recognasumm
语言:
- pt
任务标签: 摘要生成
葡萄牙语T5抽象摘要模型(PTT5 Summ)
简介
PTT5 Summ是基于PTT5微调的巴西葡萄牙语抽象摘要生成模型,训练数据包括:RecognaSumm、WikiLingua、XL-Sum、TeMário和CSTNews。
更多信息请访问PTT5 Summ仓库。
可用模型
使用示例
from transformers import T5Tokenizer
from transformers import T5Model, T5ForConditionalGeneration
token_name = 'unicamp-dl/ptt5-base-portuguese-vocab'
model_name = 'recogna-nlp/ptt5-base-summ'
tokenizer = T5Tokenizer.from_pretrained(token_name)
model_pt = T5ForConditionalGeneration.from_pretrained(model_name)
text = '''
巴西央行行长梅雷莱斯表示:"巴西利率下降趋势真实可见"。他在华盛顿参加IMF和世行会议期间会见银行家与投资者时强调,当前经济政策和通胀达标将保障长期利率下行,但需关注中长期走势。央行控制通胀的工作将促使利率逐步下降。周日梅雷莱斯出席《银行家》杂志"年度央行"颁奖典礼时称,该荣誉表明巴西正走在正确道路上,市场已认可央行对通胀目标的承诺。他还表示周末会晤的投资者对巴西政治危机关注度不高。
'''
inputs = tokenizer.encode(text, max_length=512, truncation=True, return_tensors='pt')
summary_ids = model_pt.generate(inputs, max_length=256, min_length=32, num_beams=5, no_repeat_ngram_size=3, early_stopping=True)
summary = tokenizer.decode(summary_ids[0])
print(summary)
引用文献
基于深度学习的巴西葡萄牙语抽象摘要生成(PROPOR 2022)
@inProceedings{ptt5summ_bracis,
author="Paiola, Pedro H.
and de Rosa, Gustavo H.
and Papa, Jo{\~a}o P.",
editor="Xavier-Junior, Jo{\~a}o Carlos
and Rios, Ricardo Ara{\'u}jo",
title="Deep Learning-Based Abstractive Summarization for Brazilian Portuguese Texts",
booktitle="BRACIS 2022: Intelligent Systems",
year="2022",
publisher="Springer International Publishing",
address="Cham",
pages="479--493",
isbn="978-3-031-21689-3"}
RecognaSumm:巴西新型摘要数据集(PROPOR 2024)
@inproceedings{paiola-etal-2024-recognasumm,
title = "{R}ecogna{S}umm: A Novel {B}razilian Summarization Dataset",
author = "Paiola, Pedro Henrique and
Garcia, Gabriel Lino and
Jodas, Danilo Samuel and
Correia, Jo{\~a}o Vitor Mariano and
Sugi, Luis Afonso and
Papa, Jo{\~a}o Paulo",
editor = "Gamallo, Pablo and
Claro, Daniela and
Teixeira, Ant{\'o}nio and
Real, Livy and
Garcia, Marcos and
Oliveira, Hugo Gon{\c{c}}alo and
Amaro, Raquel",
booktitle = "Proceedings of the 16th International Conference on Computational Processing of Portuguese - Vol. 1",
month = mar,
year = "2024",
address = "Santiago de Compostela, Galicia/Spain",
publisher = "Association for Computational Lingustics",
url = "https://aclanthology.org/2024.propor-1.63",
pages = "575--579",
}