语言:
- 意大利语
许可证: apache-2.0
数据集:
- ARTeLab/fanpage
- ARTeLab/ilpost
标签:
- 意大利语
- 序列到序列
- fanpage
- ilpost
- 摘要生成
小部件:
- 文本: "她不想结婚。这是拉法埃拉·菲科在最近一次采访中透露的,她感谢曼奇尼给她男友提出的好建议,但将结婚计划推迟了几年。这位最近成为超级马里奥献礼主角的综艺女星,目前还没有安定下来的打算,因为她确信戴上婚戒还为时尚早。尽管她的马里奥是世界上最受欢迎的运动员之一,这位《老大哥》前主角却无意认真接受他的追求。就在几天前,巴洛特利最近一次恶作剧后,曼奇尼曾建议他娶拉法埃拉并安定下来。但以为马里奥会回应的想法错了。菲科在接受RTL 102.5电台采访时澄清道:现在结婚太早,我们还很年轻。先实现事业目标才是对的。之后未尝不可考虑结婚。年轻时总会做些疯狂事,这很正常。不过英国小报过分关注他的私生活,其实更该关注他的球场表现。他做事没有恶意,但年轻时做某些事不会考虑对错。马里奥备受瞩目:更多是因为私生活而非球员身份。对我来说,他和朋友去脱衣舞俱乐部也无妨,只要不做坏事,毕竟他总会回到我身边,我是他的最爱。"
- 文本: "瓦莱里奥虽年轻却已是明星。阿里斯顿剧院外,少女和熟女们冒雨数小时只为见他。他天赋异禀且自信十足。作为《玛丽亚·德·菲利皮的友人》节目决赛选手,他有权与'大咖'同台竞技,并演唱皮埃尔达维德·卡隆为他创作的《每一次》。瓦莱里奥·斯坎努被淘汰了。但并非终局:今晚与亚历山德拉·阿莫罗索的二重唱可能让他逆袭复活。评委为何淘汰表现完美的你?我不知道。表演很顺利,我紧张但镇定。我很开心且唱得很好。没晋级今晚将进行加赛...《友人》与圣雷莫有何不同?两者截然不同。《友人》为你登上圣雷莫舞台做准备...我夏季巡演超60场,接着宣传第二张专辑。这是很好的锻炼,让我在人性上也成长了。我能感知观众传递的情感。谦逊?这是首要的。否则我不会站在这里。"
- 文本: "全球最大半导体制造商之一美国博通公司提出收购高通公司的要约,后者是美国知名企业,主要生产用于全球数亿智能手机的骁龙(ARM)微处理器。博通提议以每股70美元价格收购高通全部股份,总价约1050亿美元(含250亿美元净债务则为1300亿美元)。若交易获批,将成为美国科技史上最大收购案之一。博通数月来完善收购方案,据美媒报道已与高通接触商谈。分析师认为高通可能拒绝,因报价仅略高于当前市值。此外还需评估反垄断方面的潜在问题。"
- 文本: "ITsART平台终于在5月31日上线,距文化部长达里奥·弗朗切斯基尼在首次封锁期间称其为'文化版Netflix'已逾一年,旨在'有偿向全球提供意大利文化'。现在对平台下定论为时过早,缺乏具体数据的情况下未来也难以评估。目前只能浏览网站结构,清点约700部'作品'(含电影、纪录片、戏剧和音乐演出等),并尝试评价其价值和多样性。值得注意的是,虽然部分内容在RaiPlay等平台免费,但ITsART上却需付费观看。"
指标:
- rouge
模型索引:
- 名称: it5-small-news-summarization
结果:
- 任务:
类型: 新闻摘要
名称: "新闻摘要"
数据集:
类型: newssum-it
名称: "NewsSum-IT"
指标:
- 类型: rouge1
值: 0.333
名称: "IlPost测试Rouge1"
- 类型: rouge2
值: 0.162
名称: "IlPost测试Rouge2"
- 类型: rougeL
值: 0.273
名称: "IlPost测试RougeL"
- 类型: bertscore
值: 0.395
名称: "IlPost测试BERTScore"
参数:
- 模型类型: "dbmdz/bert-base-italian-xxl-uncased"
- 语言: "it"
- 层数: 10
- 基线重缩放: 是
- 基线路径: "bertscore_baseline_ita.tsv"
- 类型: rouge1
值: 0.328
名称: "Fanpage测试Rouge1"
- 类型: rouge2
值: 0.148
名称: "Fanpage测试Rouge2"
- 类型: rougeL
值: 0.242
名称: "Fanpage测试RougeL"
- 类型: bertscore
值: 0.377
名称: "Fanpage测试BERTScore"
参数:
- 模型类型: "dbmdz/bert-base-italian-xxl-uncased"
- 语言: "it"
- 层数: 10
- 基线重缩放: 是
- 基线路径: "bertscore_baseline_ita.tsv"
二氧化碳当量排放:
排放量: "8克"
来源: "谷歌云平台碳足迹"
训练类型: "微调"
地理位置: "荷兰埃姆斯哈文,欧洲"
使用硬件: "1台TPU v3-8虚拟机"
缩略图: https://gsarti.com/publication/it5/featured.png
新闻摘要专用IT5小型模型 ✂️🗞️ 🇮🇹
本仓库包含在Fanpage和Il Post语料库上进行新闻摘要微调的IT5小型模型检查点,作为论文IT5: 意大利语理解与生成的大规模文本到文本预训练实验的一部分,作者为Gabriele Sarti和Malvina Nissim。
完整资源概览详见gsarti/it5仓库。论文中提供了关于报告分数和评估方法的更多细节。
使用模型
模型检查点支持Tensorflow、Pytorch和JAX框架。可直接通过pipeline使用:
from transformers import pipelines
newsum = pipeline("summarization", model='it5/it5-small-news-summarization')
newsum("从5月31日起,ITsART平台终于启动,距文化部长达里奥·弗朗切斯基尼在首次封锁期间将其描述为'文化版Netflix'已逾一年,旨在'有偿向全球提供意大利文化'。现在对平台下定论为时过早,缺乏具体数据的情况下未来也难以评估。目前只能浏览网站结构,清点约700部'作品'(含电影、纪录片、戏剧和音乐演出等),并尝试评价其价值和多样性。值得注意的是,虽然部分内容在RaiPlay等平台免费,但ITsART上却需付费观看。")
>>> [{"generated_text": "意大利文化版Netflix平台ITsART五月上线。电影、纪录片、戏剧和音乐演出等付费内容现可通过新网站获取。"}]
或通过autoclass加载:
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
tokenizer = AutoTokenizer.from_pretrained("it5/it5-small-news-summarization")
model = AutoModelForSeq2SeqLM.from_pretrained("it5/it5-small-news-summarization")
若在研究中引用本模型,请使用以下文献:
@article{sarti-nissim-2022-it5,
title={{IT5}: 意大利语理解与生成的大规模文本到文本预训练},
author={萨蒂, 加布里埃尔 and 尼西姆, 马尔维娜},
journal={arXiv预印本2203.03759},
url={https://arxiv.org/abs/2203.03759},
year={2022},
month={三月}
}