语言:
- 意大利语
许可证: Apache-2.0
数据集:
- ARTeLab/fanpage
- ARTeLab/ilpost
标签:
- 意大利语
- 序列到序列
- fanpage
- 高效
- ilpost
- 摘要生成
示例:
- 文本: "她不愿嫁给他。这是拉法埃拉·菲科在最近一次采访中透露的,她感谢曼奇尼给她男友的好建议,但将结婚计划推迟了几年。这位最近成为SuperMario献礼主角的综艺女星,目前还没有安定下来的打算,因为她确信戴婚戒的时机尚未成熟。尽管她的男友马里奥是世界上最受欢迎的运动员之一,这位《老大哥》前明星却无意认真接受他的追求。就在几天前,巴洛特利最新恶作剧后,曼奇尼曾建议他娶拉法埃拉并收心。但以为马里奥会回应的人想错了。菲科在接受RTL 102.5电台采访时明确表示:结婚为时尚早,我们还很年轻。应该先实现事业目标。之后未尝不可考虑婚姻。年轻时难免做些疯狂事,这很正常。但英国小报过分关注他的私生活,其实更该关注他在球场上的表现。他做事没有恶意,但年轻人做某些事时不会考虑对错。马里奥备受瞩目:更多是因私生活而非球员身份。对我来说,只要不做坏事,他和朋友去脱衣舞俱乐部也无妨,毕竟他总会回到我身边——我是他的最爱。"
- 文本: "瓦莱里奥虽年轻却已是明星。阿里斯顿剧院外,少女和熟女们甘冒风雨守候数小时只为见他。他天赋异禀且自信十足。作为《玛丽亚·德·菲利皮的学园》节目决赛选手,他有权与'大咖'同台竞技,并演唱皮尔达维德·卡隆为他创作的《每一次》。瓦莱里奥·斯坎努虽遭淘汰,但今晚与亚历山德拉·阿莫罗索的二重唱可能让他复活重返比赛。表演完美却被淘汰,评审团发生了什么?我不知道。表演很顺利,我紧张但镇定。我很开心且发挥出色。虽未晋级,今晚还有加赛...《学园》与圣雷莫音乐节有何不同?两者截然不同。《学园》为你登上其舞台做准备,而圣雷莫需要你自己争取...我在夏季巡演完成60多场演出,还宣传了第二张专辑。这是很好的锻炼,让我在人性层面也成长了,能感知观众传递的情感。谦逊?这是首要品质。否则我不会站在这里。"
- 文本: "全球最大半导体制造商之一美国博通公司提出收购高通公司的要约,后者以生产用于全球数亿智能手机的骁龙(ARM)微处理器闻名。博通提议以每股70美元价格收购高通全部股份,总价约1050亿美元(含250亿美元净债务则为1300亿美元)。若交易获批,将成为美国科技史上最大并购案之一。博通耗时数月完善收购方案,据美媒报道已与高通接洽寻求协议。分析师认为高通可能拒绝该要约,因报价仅略高于当前市值。此外,在潜在收购前还需评估反垄断方面的复杂性。"
- 文本: "文化平台ITsART终於在5月31日上线,距文化部长达里奥·弗朗切斯基尼在首次封锁期间称其为'文化版Netflix'已逾一年,该平台旨在'有偿向全球提供意大利文化'。现在对平台下定论为时过早,且缺乏具体数据的情况下未来也难以评估。目前只能浏览网站结构,清点内容数量(约700个'标题',含电影、纪录片、戏剧和音乐演出等),并尝试评价其价值和多样性。值得注意的是,ITsART上部分付费内容在其他平台如RaiPlay实则免费提供。"
评估指标:
- ROUGE
- BERTScore
模型索引:
- 名称: it5-efficient-small-el32-news-summarization
结果:
- 任务:
类型: 新闻摘要生成
名称: "新闻摘要生成"
数据集:
类型: newssum-it
名称: "NewsSum-IT"
指标:
- 类型: rouge1
值: 0.354
名称: "测试集ROUGE1"
- 类型: rouge2
值: 0.172
名称: "测试集ROUGE2"
- 类型: rougeL
值: 0.278
名称: "测试集ROUGEL"
- 类型: bertscore
值: 0.410
名称: "测试集平均BERTScore"
新闻摘要生成专用IT5高效小型EL32版 ✂️🗞️ 🇮🇹
特别感谢Stefan Schweter贡献预训练高效模型!
本库包含IT5高效小型EL32模型在Fanpage和Il Post语料库上进行新闻摘要微调的检查点,这是论文IT5: 意大利语理解与生成的大规模文本到文本预训练实验部分成果,作者Gabriele Sarti与Malvina Nissim。
高效IT5模型通过采用支持大小写的差异化词表及优化架构,在减少参数量的同时提升性能。Small-EL32版将原T5 Small架构的编码器替换为32层深度编码器,展现出优于基础模型的表现。
完整资源概览详见gsarti/it5仓库。论文中提供了有关评分标准和评估方法的详细信息。
使用说明
模型检查点支持Tensorflow、Pytorch和JAX框架。可通过pipeline直接调用:
from transformers import pipelines
newsum = pipeline("summarization", model='it5/it5-efficient-small-el32-news-summarization')
newsum("文化平台ITsART终於在5月31日上线...(此处省略原文)")
>>> [{"generated_text": "意大利文化平台ITsART五月上线,提供电影、纪录片等700余项付费内容,部分内容在其他平台免费。"}]
或通过autoclass加载:
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
tokenizer = AutoTokenizer.from_pretrained("it5/it5-efficient-small-el32-news-summarization")
model = AutoModelForSeq2SeqLM.from_pretrained("it5/it5-efficient-small-el32-news-summarization")
若在研究中引用本模型,请使用以下文献格式:
@article{sarti-nissim-2022-it5,
title={{IT5}: 意大利语理解与生成的大规模文本到文本预训练},
author={萨蒂, 加布里埃尔 and 尼西姆, 马尔维纳},
journal={arXiv预印本2203.03759},
url={https://arxiv.org/abs/2203.03759},
year={2022},
month={三月}
}