语言:
- 意大利语
许可证: apache-2.0
数据集:
- ARTeLab/fanpage
- ARTeLab/ilpost
标签:
- 意大利语
- 序列到序列
- fanpage
- ilpost
- 摘要生成
小部件:
- 文本: "她不想嫁给他。这是拉法埃拉·菲科在最近一次采访中透露的,她感谢曼奇尼给她男友提出的好建议,但将结婚计划推迟了几年。这位最近因超级马里奥的公开示爱而成为话题的女艺人表示,目前还没有安定下来的打算,因为她确信戴上婚戒还为时尚早。尽管她的男友马里奥是世界上最受欢迎的运动员之一,这位《老大哥》前参赛者并未认真考虑接受他的追求。就在几天前,巴洛特利最近一次恶作剧后,曼奇尼曾建议他娶拉法埃拉并收心。但以为马里奥会回应的想法错了。菲科在接受RTL 102.5电台采访时澄清道:现在结婚太早,我们还很年轻。先实现事业目标才是正确的。之后未尝不可考虑结婚。年轻时总会做些疯狂事,这很正常。不过英国小报过分关注他的私生活,其实更该关注他在球场上的表现。他做事没有恶意,但年轻人做某些事时不会考虑对错。马里奥备受瞩目:更多是因私生活而非球员身份。对我来说,只要不做坏事,他和朋友去脱衣舞俱乐部也无妨,毕竟他总会回到我身边,我是他的最爱。"
- 文本: "瓦莱里奥虽年轻却已是明星。阿里斯顿剧院外,女孩们甚至冒雨数小时只为见他一面。他凭借才华自信满满。作为《玛丽亚·德·菲利皮的亲友》节目决赛选手,他有权与'大咖'同台竞技,并演唱皮埃尔达维德·卡隆为他创作的《每一次》。瓦莱里奥·斯坎努虽被淘汰,但今晚与亚历山德拉·阿莫罗索的二重唱可能让他重返比赛。表演完美却被淘汰,评审团怎么了?我不知道。表演很顺利,我紧张但镇定。我很开心且唱得不错。没晋级今晚将参加复活赛...《亲友》与圣雷莫音乐节有何不同?两者截然不同。《亲友》为你登上其舞台做准备,而圣雷莫需要你自己争取...夏季巡演六十多场,第二张专辑宣传,这些是很好的锻炼。我在人性层面也成长了,能感知观众传递的情感。谦逊?这是首要的。否则我不会在这里。"
- 文本: "美国半导体巨头博通公司提出收购高通公司的要约,后者以生产全球数亿智能手机使用的骁龙(ARM)微处理器闻名。博通提议以每股70美元价格收购高通全部股份,总价约1050亿美元(含250亿美元净债务则为1300亿美元)。若交易获批,将成为美国科技史上最大收购案之一。博通数月来完善收购方案,据美媒报道已与高通接触商谈。分析师认为高通可能拒绝,因报价仅略高于当前股价。此外还需评估反垄断方面的潜在问题。"
- 文本: "文化平台ITsART于5月31日终于上线,距文化部长达里奥·弗朗切斯基尼在首次封锁期间称其将打造'文化版Netflix'已逾一年。目前要对平台下定论为时尚早,即便未来缺乏精确数据也难以评估。现阶段只能浏览网站结构,清点约700个'标题'内容(含电影、纪录片、戏剧及音乐演出等),并尝试评价其价值与多样性。值得注意的是,虽然部分内容在RaiPlay等平台免费,但在ITsART上却需付费观看。"
指标:
- rouge
模型索引:
- 名称: it5-base-news-summarization
结果:
- 任务:
类型: 新闻摘要生成
名称: "新闻摘要生成"
数据集:
类型: newssum-it
名称: "NewsSum-IT"
指标:
- 类型: rouge1
值: 0.339
名称: "测试Rouge1"
- 类型: rouge2
值: 0.160
名称: "测试Rouge2"
- 类型: rougeL
值: 0.263
名称: "测试RougeL"
二氧化碳当量排放:
排放量: 17
来源: "谷歌云平台碳足迹"
训练类型: "微调"
地理位置: "荷兰埃姆斯哈文,欧洲"
使用硬件: "1台TPU v3-8虚拟机"
缩略图: https://gsarti.com/publication/it5/featured.png
新闻摘要生成专用IT5基础模型 ✂️🗞️ 🇮🇹
本仓库包含基于Fanpage和Il Post语料库微调的IT5基础模型检查点,作为论文《IT5:意大利语理解与生成的大规模文本到文本预训练》实验成果的一部分,作者为Gabriele Sarti与Malvina Nissim。
完整资源概览详见gsarti/it5仓库。论文中提供了关于评分标准和评估方法的详细说明。
使用模型
模型检查点支持Tensorflow、Pytorch和JAX框架。可通过pipeline直接调用:
from transformers import pipelines
newsum = pipeline("summarization", model='it5/it5-base-news-summarization')
newsum("文化平台ITsART于5月31日终于上线...(此处省略原文)")
>>> [{"generated_text": "意大利文化版Netflix平台ITsART五月上线,提供付费观看的电影、纪录片及舞台演出等内容。"}]
或通过自动类加载:
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
tokenizer = AutoTokenizer.from_pretrained("it5/it5-base-news-summarization")
model = AutoModelForSeq2SeqLM.from_pretrained("it5/it5-base-news-summarization")
若在研究中使用本模型,请引用:
@article{sarti-nissim-2022-it5,
title={{IT5}: 意大利语理解与生成的大规模文本到文本预训练},
author={萨蒂, 加布里埃尔 and 尼西姆, 马尔维纳},
journal={arXiv预印本2203.03759},
url={https://arxiv.org/abs/2203.03759},
year={2022},
month={3}
}