语言:
标签:
数据集:
- d0rj/samsum-ru(俄语对话摘要)
- IlyaGusev/gazeta(俄语新闻)
- zjkarina/matreshka(俄语多领域文本)
- rcp-meetings/rudialogsum_v2(俄语会议对话摘要)
- GEM/wiki_lingua(多语言维基百科摘要)
- mlsum(多语言新闻摘要)
评估指标:
- BLEU(双语评估研究)
- ROUGE(摘要质量评估)
示例展示:
-
示例标题:论文引言
文本:'问题背景。电子信息在现代社会各领域扮演着日益重要的角色。近年来,电子形式的科技文本信息量激增,导致信息过载问题凸显,大量文本中检索所需信息变得困难。互联网信息资源的发展加剧了这一挑战。在此背景下,自动化文本摘要方法——即生成文本文档压缩版(摘要/注释)的技术变得尤为重要。自动文本摘要问题的提出及解决尝试已有众多学者探索,计算技术应用于摘要的历史已超50年,与G.P. Lun、V.E. Berzon等研究者密切相关。现有方法主要分为两类:基于形式特征从原文提取"最具信息量"句段形成摘要的抽取式方法;基于专用信息语言识别核心信息并生成概括原文的新文本(摘要)的生成式方法。'
-
示例标题:生物资讯
文本:澳大利亚洞穴生物学家在研究地下水时发现了首例足节超过千足的多足生物,此前的记录保持者是700足的物种。新物种具有线状细长身躯,大量足节可能有助于快速移动和进入狭窄空间——科学家推测其能自如穿越岩石缝隙。澳大利亚以巨型恐怖生物著称(如25厘米蜘蛛),如今这个令人生畏的节肢动物名单又新增了"千足"多足生物。澳美联合研究团队在该国西部洞穴60米深处发现了这个被命名为"冥后千足虫"(Eumillipes persephone)的新物种,其足节达1306个,远超此前加州750足物种的记录。生物学家Bruno Buzatto称其独特形态"完全颠覆认知"——9.5厘米长的线状身躯由330体节构成,头部呈锥形,因长期穴居而呈现苍白无眼特征。昆虫学家Paul Marek形容其如同"从衬衫抽出的白线"。研究人员通过高清摄影和足节染色标记最终完成了足节计数。(原文链接)
模型索引:
- 模型名称:d0rj/rut5-base-summ
性能表现:
- 任务类型:摘要生成
数据集:samsum测试集
指标:
- ROUGE-1:28.8694(已验证)
- ROUGE-2:8.4686(已验证)
- ROUGE-L:24.2357(已验证)
- ROUGE-LSUM:25.8543(已验证)
- 损失值:3.2456(已验证)
- 生成长度:27.5543(已验证)
- 任务类型:摘要生成
数据集:xsum测试集
指标:
- ROUGE-1:16.1279(已验证)
- ROUGE-2:2.1128(已验证)
- ROUGE-L:12.2033(已验证)
- ROUGE-LSUM:12.4127(已验证)
- 损失值:4.5758(已验证)
- 生成长度:39.2258(已验证)
rut5-base-summ模型说明
模型架构
基于ai-forever/ruT5-base微调的俄语文本与对话摘要模型。
训练数据
融合以下数据集并经过随机洗牌(随机种子1000-7):
评估结果
在合并验证集10%子集(1,458条)上测试,完整日志见WandB记录。
使用说明
摘要流水线
from transformers import pipeline
pipe = pipeline('summarization', model='d0rj/rut5-base-summ')
pipe(待摘要文本)
文本生成模式
from transformers import T5Tokenizer, T5ForConditionalGeneration
tokenizer = T5Tokenizer.from_pretrained('d0rj/rut5-base-summ')
model = T5ForConditionalGeneration.from_pretrained('d0rj/rut5-base-summ').eval()
input_ids = tokenizer(文本, return_tensors='pt').input_ids
outputs = model.generate(input_ids)
摘要 = tokenizer.decode(outputs[0], skip_special_tokens=True)
注意事项
本仓库保存了优化器、调度器和训练器状态,支持基于现有梯度继续使用自定义数据进行微调。