语言:
- 尼泊尔语
许可证: apache-2.0
标签:
- 训练生成
- 摘要生成
- 尼泊尔语
数据集:
- Someman/news_nepali
基础模型: google/mt5-small
模型索引:
- 名称: mt5-summarize-nepali
结果: []
mt5-summarize-nepali
该模型是基于google/mt5-small在Someman/news_nepali数据集上微调的版本。在评估集上取得了以下结果:
使用方式
>>> import torch
>>> from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
>>> model_ckpt = "GenzNepal/mt5-summarize-nepali"
>>> device = "cuda" if torch.cuda.is_available() else "cpu"
>>> t5_tokenizer = AutoTokenizer.from_pretrained(model_ckpt)
>>> model = AutoModelForSeq2SeqLM.from_pretrained(model_ckpt).to(device)
>>> text = "加德满都。目前国家东部及中部地区受季风系统影响,其余地区受局部气流和西风带部分影响。因此,甘达基省少数地区和卡纳利省一两个地方正出现伴有雷电的轻度至中度降雨,水利与气象部门天气预报中心表示。...(后续原文省略)"
>>> inputs = t5_tokenizer(text, return_tensors="pt", max_length=1024, padding="max_length", truncation=True, add_special_tokens=True)
>>> generation = model.generate(
input_ids = inputs['input_ids'].to(device),
attention_mask=inputs['attention_mask'].to(device),
num_beams=6,
num_return_sequences=1,
no_repeat_ngram_size=2,
repetition_penalty=1.0,
min_length=100,
max_length=250,
length_penalty=2.0,
early_stopping=True
)
>>> output = t5_tokenizer.decode(generation[0], skip_special_tokens=True, clean_up_tokenization_spaces=True)
>>> print(output)
"目前国家东部及中部地区受季风系统影响。其余地区受局部气流和西风带部分交替影响。据气象学家拉米查内表示,季风系统正逐步向全国扩展,预计还需一周时间覆盖全境。"
训练流程
训练超参数
- 学习率: 0.0005
- 训练批次大小: 2
- 评估批次大小: 1
- 随机种子: 42
- 梯度累积步数: 8
- 总训练批次大小: 16
- 优化器: Adam (β1=0.9, β2=0.999, ε=1e-08)
- 学习率调度器类型: 线性
- 学习率预热步数: 90
- 训练轮次: 10
训练结果
训练损失 |
轮次 |
步数 |
验证损失 |
0.7762 |
2.72 |
2500 |
0.7255 |
0.6377 |
5.44 |
5000 |
0.6947 |
0.5674 |
8.15 |
7500 |
0.6748 |
框架版本
- Transformers 4.30.1
- PyTorch 2.0.0
- Datasets 2.1.0
- Tokenizers 0.13.3