基础模型: google/mt5-base
流水线标签: 文本摘要
标签:
- 文本摘要
- mT5
数据集:
- csebuetnlp/xlsum
- data-silence/sumnews
支持语言:
- 阿姆哈拉语
- 阿拉伯语
- 阿塞拜疆语
- 孟加拉语
- 缅甸语
- 中文
- 英语
- 法语
- 古吉拉特语
- 豪萨语
- 印地语
- 伊博语
- 印尼语
- 日语
- 基隆迪语
- 韩语
- 吉尔吉斯语
- 马拉地语
- 尼泊尔语
- 奥罗莫语
- 普什图语
- 波斯语
- 尼日利亚皮钦语
- 葡萄牙语
- 旁遮普语
- 俄语
- 苏格兰盖尔语
- 塞尔维亚语
- 僧伽罗语
- 索马里语
- 西班牙语
- 斯瓦希里语
- 泰米尔语
- 泰卢固语
- 泰语
- 提格里尼亚语
- 土耳其语
- 乌克兰语
- 乌尔都语
- 乌兹别克语
- 越南语
- 威尔士语
- 约鲁巴语
许可证:
- cc-by-nc-sa-4.0
库名称: transformers
推理参数:
禁用重复n元组大小: 4
示例窗口:
- 文本: >
埃菲尔铁塔高324米(1063英尺),相当于81层楼的高度,是巴黎最高建筑。塔基呈正方形,每边长125米(410英尺)。建造期间,埃菲尔铁塔超越华盛顿纪念碑成为世界最高人造建筑,并保持这一称号41年,直到1930年纽约克莱斯勒大厦竣工。这是首个达到300米高度的建筑。由于1957年在塔顶加装广播天线,现比克莱斯勒大厦高出5.2米(17英尺)。除发射装置外,埃菲尔铁塔是法国第二高的独立结构,仅次于米约高架桥。
示例标题: 维基百科
- 文本: >
俄罗斯自9月1日起生效的《破产法》修正案规定:当债务金额不低于5万卢布且不超过50万卢布(不含罚款、滞纳金、逾期利息及其他财产或金融制裁)时,债务人可通过非司法程序免除无力偿还的债务。个人和个体经营者现可不经法院和财务管理人参与即完成破产程序——只需通过多功能中心提交申请。申请人需自行提供债务金额和已知债权人名单。若符合所有条件,相关信息将在3个工作日内录入联邦统一登记系统。同时,申请时针对申请人的执行程序必须已终结且执行文件已退还债权人。这意味着潜在破产者不应有可追偿财产。此外,不得对该公民启动其他执行程序。整个程序期间,申请人不得借款、贷款、提供担保或进行其他担保交易。非司法破产将持续6个月,期间对债务人申请中列明的债权人要求满足及强制性付款实行暂停。此外,停止计算违约金等金融制裁;财产追偿(赡养费除外)也将中止。程序完成后,申请人将免除履行破产申请中列明的债权人要求,该债务被视为坏账。上月数据显示,2020年上半年俄罗斯法院宣告4.27万公民(含个体经营者)破产——据"联邦资源"统一登记系统统计,同比增加47.2%。第二季度破产公民增速较第一季度放缓——项目负责人阿列克谢·尤赫宁解释,这种动态源于3月19日至5月11日限制期间法院很少审理企业破产案件,公民破产案件也少于往常。他预测下半年随着法院审理限制期间积压案件,指标将回升。数据显示,仅6月个人破产数就达1.15万例,是2019年同期的两倍。
示例标题: 新闻
- 文本: >
问题现状。电子信息在现代社会各领域扮演着日益重要的角色。近年来电子版科技文本信息量激增,导致在众多可获取文本中检索所需信息困难,存在信息贬值风险。互联网信息资源的发展使信息过载问题成倍加剧。这种情况下,文本信息自动摘要方法(即获取文本文档压缩表示——文摘/摘要的方法)的自动化尤为重要。文本自动摘要的问题提出及相应解决尝试已由众多研究者采用不同方法实施。计算机应用于摘要的历史已超50年,与H.P. Loon、V.E. Berzon、I.P. Sevbo、E.F. Skorokhodko、D.G. Lakhuti、R.G. Piotrovsky等研究者密切相关。这些年来形成了两大类解决方法:基于从原始文档中按特定形式特征提取"最具信息量"语句(片段)形成摘录的自动摘要;基于通过专用信息语言从文本中提取核心信息并生成概括原始文档内容的新文本(摘要)的自动摘要。
示例标题: 科研论文
data-silence/any-news-sum
该仓库包含基于热门数据集XL-Sum的sumnews数据集45种语言微调的mT5检查点模型。该模型专用于新闻摘要任务:根据全文内容同步生成新闻标题和摘要。训练主要侧重俄语处理,但一定程度上支持母模型mT5和XL-Sum数据集涵盖的所有语言。
在Spaces
测试模型
可通过此链接体验训练好的模型
在transformers
中使用模型
import torch
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM, DataCollatorForSeq2Seq
model_name = "data-silence/any-news-sum"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSeq2SeqLM.from_pretrained(model_name)
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
def generate_summary_with_special_tokens(text, max_length=512):
inputs = tokenizer(text, return_tensors="pt", max_length=max_length, truncation=True).to(device)
outputs = model.generate(
**inputs,
max_length=max_length,
num_return_sequences=1,
no_repeat_ngram_size=4,
)
generated_text = tokenizer.decode(outputs[0], skip_special_tokens=False)
parts = generated_text.split('<title_resume_sep>')
title = parts[0].replace("<pad> ", "").strip()
resume = parts[1].replace("</s>", "").strip() if len(parts) > 1 else ""
return title, resume
title, resume = generate_summary_with_special_tokens('心脏病患者通常 melatonin水平较低且睡眠-觉醒周期紊乱。此前这种现象的机制尚不明确。慕尼黑工业大学(TUM)团队在《Science》期刊发表文章,揭示了心脏病如何影响松果体睡眠激素的产生。而连接两个器官的关键是颈部神经节。')
print(title)
print(resume)
训练超参数
训练采用以下超参数:
- 学习率: 2e-05
- 训练批大小: 6
- 评估批大小: 6
- 随机种子: 42
- 梯度累积步数: 6
- 总训练批大小: 36
- 优化器: 带betas=(0.9,0.999)和epsilon=1e-08的Adam
- 学习率调度器类型: 线性
- 学习率预热步数: 500
- 训练轮次: 4
评估结果
模型在评估集上表现如下:
指标 |
显著性 |
ROUGE-1 |
ROUGE-2 |
ROUGE-L |
训练损失 |
0.4487 |
- |
- |
- |
训练轮次 |
4.0 |
- |
- |
- |
训练步数 |
20496 |
- |
- |
- |
评估耗时(s) |
3433.4702 |
- |
- |
- |
评估样本数/秒 |
9.37 |
- |
- |
- |
评估步数/秒 |
1.562 |
- |
- |
- |
评估损失 |
0.2748 |
- |
- |
- |
标题评估 |
- |
0.1373 |
0.0489 |
0.1220 |
摘要评估 |
- |
0.0016 |
0.0005 |
0.0015 |
框架版本
- Transformers 4.42.4
- Pytorch 2.3.1+cu121
- Datasets 2.21.0
- Tokenizers 0.19.1