语言:
- 意大利语
许可证: apache-2.0
数据集:
- ARTeLab/fanpage
- ARTeLab/ilpost
标签:
- 意大利语
- 序列到序列
- fanpage
- ilpost
- 摘要生成
小部件:
- 文本: "她不想结婚。这是拉斐拉·菲科在最新采访中透露的,她感谢曼奇尼给她的男友提供了好建议,并将结婚的想法推迟了几年。这位最近成为SuperMario献礼主角的综艺女星,目前还没有安定下来的打算,因为她确信戴上婚戒还为时尚早。尽管她的马里奥是世界上最受欢迎的运动员之一,这位《老大哥》的前主角却丝毫没有认真接受他追求的意思。就在几天前,巴洛特利最近一次恶作剧后,曼奇尼曾建议他娶拉斐拉并安定下来。然而,以为马里奥会回应的人错了。菲科在接受RTL 102.5电台采访时澄清道:现在结婚太早,我们还很年轻。一个人应该先在工作中实现自我。之后,为什么不呢,也可以考虑。年轻时总会做些疯狂的事,这很正常。不过英国小报过于关注他的私生活,其实更应该关心他在球场上的表现。他做事情没有恶意,但年轻时做某些事不会考虑对错。马里奥备受瞩目:更多是因为私生活而非球员身份。对我来说,他也可以和朋友去脱衣舞俱乐部,只要不做坏事,但最后他总是回到我身边,我是他的最爱。"
- 文本: "瓦莱里奥非常年轻却已是明星。在阿里斯顿剧院外,女孩们甚至冒着雨等上几个小时只为见他一面。他凭借才华自信满满。作为《玛丽亚·德·菲利皮的友人》节目决赛选手,他有权与'大咖'同台竞技,并演唱皮埃尔达维德·卡隆为他创作的歌曲《每一次》。瓦莱里奥·斯坎努被淘汰了。但这不是最终结局:今晚与亚历山德拉·阿莫罗索的二重唱可能让他翻盘重返比赛。为什么表演完美却被评委淘汰?我不知道。表演很顺利,我紧张但平静。我很开心而且唱得很好。没晋级今晚还有加赛…《友人》与圣雷莫有何不同?两者截然不同。《友人》让你为登上《友人》舞台做准备。圣雷莫需要你自己争取…夏季巡演我演了六十多场,还宣传了第二张专辑。是很好的锻炼。我在为人处世上也成长了。能感受到观众传递的情感。谦逊?这是首要的。否则我不会站在这里。"
- 文本: "美国半导体巨头博通公司提出收购高通公司的要约,后者以生产全球数亿智能手机使用的骁龙(ARM)微处理器闻名。博通提议以每股70美元价格收购高通全部股份,总价约1050亿美元(含250亿净债务则达1300亿)。若交易获批,将成为美国科技史上最大并购案之一。博通数月来完善收购方案,据美媒报道已与高通接触商谈。分析师认为高通可能拒绝,因报价仅略高于当前市值。此外还需评估反垄断方面的潜在障碍。"
- 文本: "ITsART平台终于在5月31日上线,距文化部长达里奥·弗朗切斯基尼在首次封锁期间称其为'文化版Netflix'已逾一年,旨在'向全球有偿提供意大利文化'。现在对平台下定论为时过早,缺乏具体数据未来也难以评估。目前只能浏览网站结构,清点约700个'标题'(含电影、纪录片、戏剧音乐演出等),并尝试评价其价值与多样性。值得注意的是,尽管部分内容在RaiPlay等平台免费,但ITsART上却需付费。"
指标:
- rouge
模型索引:
- 名称: it5-large-news-summarization
结果:
- 任务:
类型: 新闻摘要
名称: "新闻摘要"
数据集:
类型: newssum-it
名称: "NewsSum-IT"
指标:
- 类型: rouge1
值: 0.249
名称: "IlPost测试Rouge1"
- 类型: rouge2
值: 0.102
名称: "IlPost测试Rouge2"
- 类型: rougeL
值: 0.199
名称: "IlPost测试RougeL"
- 类型: bertscore
值: 0.313
名称: "IlPost测试BERTScore"
参数:
- 模型类型: "dbmdz/bert-base-italian-xxl-uncased"
- 语言: "it"
- 层数: 10
- 基线重缩放: 是
- 基线路径: "bertscore_baseline_ita.tsv"
- 类型: rouge1
值: 0.253
名称: "Fanpage测试Rouge1"
- 类型: rouge2
值: 0.099
名称: "Fanpage测试Rouge2"
- 类型: rougeL
值: 0.191
名称: "Fanpage测试RougeL"
- 类型: bertscore
值: 0.316
名称: "Fanpage测试BERTScore"
参数:
- 模型类型: "dbmdz/bert-base-italian-xxl-uncased"
- 语言: "it"
- 层数: 10
- 基线重缩放: 是
- 基线路径: "bertscore_baseline_ita.tsv"
二氧化碳排放:
排放量: "51克"
来源: "谷歌云平台碳足迹"
训练类型: "微调"
地理位置: "荷兰埃姆斯哈文,欧洲"
硬件使用: "1台TPU v3-8虚拟机"
缩略图: https://gsarti.com/publication/it5/featured.png
新闻摘要专用IT5大模型 ✂️🗞️ 🇮🇹
本仓库包含在Fanpage和Il Post语料库上进行新闻摘要微调的IT5大模型检查点,作为论文IT5: 意大利语理解与生成的大规模文本到文本预训练的实验成果之一,作者为Gabriele Sarti和Malvina Nissim。
完整发布材料概览请参阅gsarti/it5仓库。论文中提供了有关报告分数和评估方法的更多细节。
使用模型
模型检查点支持Tensorflow、Pytorch和JAX框架。可直接通过pipeline使用:
from transformers import pipelines
newsum = pipeline("summarization", model='it5/it5-large-news-summarization')
newsum("ITsART平台终于在5月31日上线...(此处省略原文)")
>>> [{"generated_text": "意大利文化版Netflix平台ITsART五月上线,提供付费电影、纪录片及戏剧演出等内容。"}]
或通过autoclass加载:
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
tokenizer = AutoTokenizer.from_pretrained("it5/it5-large-news-summarization")
model = AutoModelForSeq2SeqLM.from_pretrained("it5/it5-large-news-summarization")
若在研究中引用本模型,请引用我们的工作:
@article{sarti-nissim-2022-it5,
title={{IT5}: 意大利语理解与生成的大规模文本到文本预训练},
author={Sarti, Gabriele and Nissim, Malvina},
journal={ArXiv预印本2203.03759},
url={https://arxiv.org/abs/2203.03759},
year={2022},
month={三月}
}