库名称: transformers
标签:
- 摘要生成
- 文本到文本
- 土耳其语
- 抽象摘要生成
许可证: apache-2.0
数据集:
- yeniguno/turkish-news-summary-onesentence
语言:
- tr
基础模型:
- mukayese/mt5-base-turkish-summarization
管道标签: summarization
模型卡片
该模型是基于mukayese/mt5-base-turkish-summarization微调的版本,专门用于生成土耳其语新闻文章的简洁连贯摘要。微调使用了yeniguno/turkish-news-summary-onesentence数据集,该数据集包含约6万篇土耳其语新闻文章及其单句摘要。目标是提升模型生成更短、更简洁紧凑的新闻摘要能力。
快速开始
使用以下代码快速体验模型:
from transformers import pipeline
pipe = pipeline("summarization", model="yeniguno/turkish-abstractive-summary-mt5")
text = """巴西东北部沿海城市累西腓一栋摩天大楼发生火灾,整栋建筑被火焰吞噬。分享的视频显示,火焰从低层蔓延至高层。初步调查显示无人伤亡。据Timesnow报道,由于建筑碎片坠落,周边建筑电力中断并进行了疏散。"""
response = pipe(
text,
max_length=150,
num_beams=4,
length_penalty=3.0,
early_stopping=True
)
print(response[0]["summary_text"])
用途
本模型适用于需要土耳其语新闻内容摘要的应用场景,如新闻聚合平台、内容精选服务以及需要快速浏览长篇新闻的应用。
偏差、风险与局限
模型性能取决于训练数据的质量和多样性。对于训练数据中未涵盖的新闻主题或风格可能表现不佳。用户应谨慎考虑上下文环境来解读生成的摘要。
训练详情
训练数据
使用yeniguno/turkish-news-summary-onesentence数据集进行微调,包含约6万篇土耳其语新闻及其单句摘要。
训练过程
基于mukayese/mt5-base-turkish-summarization模型,在yeniguno/turkish-news-summary-onesentence数据集上使用Hugging Face的transformers
库进行微调,关键参数:
- 学习率:
5e-6
- 批大小: 每设备
8
- 权重衰减:
0.01
- 训练轮次:
10
- 评估策略: 每轮结束评估
- 损失函数: 交叉熵
- 优化器: AdamW
- 训练步数:
49,560
- 总浮点运算:
7.78e+17
- 生成式预测: 启用
在单GPU上完成训练,使用DataCollatorForSeq2Seq
进行动态填充。
评估
采用ROUGE指标评估摘要质量,各训练轮次的验证集表现:
轮次 |
训练损失 |
验证损失 |
ROUGE-1 |
ROUGE-2 |
ROUGE-L |
生成长度 |
1 |
1.3854 |
1.2058 |
35.10 |
22.95 |
31.92 |
8.86 |
2 |
1.2895 |
1.1541 |
36.27 |
24.05 |
33.05 |
8.87 |
3 |
1.2631 |
1.1258 |
36.58 |
24.55 |
33.41 |
8.85 |
4 |
1.2318 |
1.1072 |
36.98 |
24.95 |
33.80 |
8.84 |
5 |
1.2130 |
1.0946 |
37.17 |
25.18 |
34.01 |
8.83 |
6 |
1.1948 |
1.0861 |
37.38 |
25.41 |
34.22 |
8.83 |
7 |
1.1888 |
1.0803 |
37.56 |
25.60 |
34.39 |
8.83 |
8 |
1.1810 |
1.0764 |
37.58 |
25.63 |
34.41 |
8.84 |
9 |
1.1690 |
1.0738 |
37.68 |
25.74 |
34.52 |
8.83 |
10 |
1.1814 |
1.0732 |
37.68 |
25.73 |
34.52 |
8.84 |
- ROUGE-1: 衡量生成摘要与参考摘要的单元词重叠率
- ROUGE-2: 衡量二元词重叠率
- ROUGE-L: 衡量最长公共子序列
- 生成长度: 生成摘要的平均长度
经过10轮训练,模型在验证集上达到ROUGE-1:37.68,ROUGE-2:25.73,ROUGE-L:34.52,最终训练损失1.2444,验证损失1.0732。模型优化后能生成语义准确、可读性高的紧凑型土耳其语新闻摘要。