🚀 越南新闻摘要微调模型项目
本项目基于google/mt5-small
模型进行微调,用于越南语新闻摘要生成。通过在特定数据集上训练,该模型能够有效生成高质量的新闻摘要。
🚀 快速开始
安装与设置
import torch
from transformers import T5ForConditionalGeneration, T5Tokenizer, Seq2SeqTrainingArguments, Seq2SeqTrainer
from transformers import Seq2SeqTrainingArguments, Seq2SeqTrainer
加载模型
model_name = "danhtran2mind/viet-news-sum-mt5-small-finetune"
tokenizer = T5Tokenizer.from_pretrained(model_name)
model = T5ForConditionalGeneration.from_pretrained(model_name)
推理步骤
def preprocess_input(text):
inputs = tokenizer(text, max_length=512, truncation=True, padding="max_length", return_tensors="pt")
return inputs
def generate_summary(text):
inputs = preprocess_input(text)
with torch.no_grad():
summary_ids = model.generate(
inputs["input_ids"],
attention_mask=inputs["attention_mask"],
max_length=128,
early_stopping=True
)
summary = tokenizer.decode(summary_ids[0], skip_special_tokens=True)
return summary
input_text = """
Vào ngày 8-1, khoa gây mê hồi sức Bệnh viện Đa khoa Đức Giang tiếp nhận bệnh nhân L.T.N.T. (23 tuổi, Chương Mỹ, Hà Nội) trong tình trạng hôn mê sau tai nạn giao thông.
Thai phụ mang thai 26 tuần bị viêm phổi, chấn thương sọ não nghiêm trọng với xuất huyết dưới nhện và tụ máu dưới màng cứng trán phải.
Theo bác sĩ Lê Nguyễn An - trưởng khoa gây mê hồi sức Bệnh viện Đa khoa Đức Giang, vấn đề thách thức trong quá trình điều trị với bệnh nhân này là việc cần phải đảm bảo sức khỏe cho cả mẹ và con là rất khó khăn.
"Các bác sĩ cố gắng duy trì tuổi thai ngoài 30 tuần để đảm bảo việc khi sinh ra trẻ có thể phát triển bình thường. Việc đảm bảo an toàn tính mạng cho mẹ cũng phải cân đối phù hợp, hạn chế tối thiểu việc ảnh hưởng tới thai nhi", bác sĩ An nói.
Trong suốt quá trình điều trị, các bác sĩ liên tục phối hợp với chuyên khoa sản và dinh dưỡng để đánh giá và điều chỉnh liên tục cho người bệnh để đảm bảo sự phát triển của em bé trong bụng mẹ.
Đặc biệt việc chăm sóc người bệnh ở trạng thái hôn mê, thở qua mở khí quản rất khó khăn, nhiều nguy cơ rủi ro về tình trạng nhiễm khuẩn, thiếu hụt dinh dưỡng, loét trợt điểm tì đè, nguy cơ suy thai".
Sau 70 ngày điều trị, tình trạng của sản phụ dần ổn định. Các chỉ số sinh tồn cải thiện, bệnh nhân tự thở qua mở khí quản, thai phát triển bình thường.
Tối 15-3, sản phụ có dấu hiệu chuyển dạ, thai 36 tuần (theo dự kiến sinh), ngôi ngược, ối vỡ sớm. Đội ngũ bác sĩ quyết định mổ lấy thai.
Ca phẫu thuật thành công, một bé trai nặng 2kg chào đời khóc to, niêm mạc hồng hào trong niềm hạnh phúc vô bờ của đội ngũ y bác sĩ và gia đình.
Ba ngày sau mổ, sản phụ tỉnh táo, tự ăn uống, được rút mở khí quản. Dự kiến cả mẹ và bé xuất viện trong ngày 21-3.
"""
input_text = input_text.replace("\n", "")
summary = generate_summary(input_text)
print(f"Summary: {summary}")
示例输出
📦 安装指南
运行代码所需的依赖库版本如下:
Python 版本
版本:3.10.12
导入库
pandas==2.2.3
numpy==1.26.4
torch==2.5.1
nltk==3.2.4
pytorch-cuda==12.1
datasets==3.3.1
tqdm==4.67.1
transformers==4.47.0
📚 详细文档
训练笔记本
可在以下链接查看训练笔记本:训练笔记本
数据集
数据集可在以下链接获取:OpenHust/vietnamese-summarization
基础模型
基础模型可在以下链接获取:google/mt5-small
训练超参数
训练过程中使用了以下超参数:
- 学习率:3e-4
- 训练批次大小:12
- 评估批次大小:12
- 随机种子:42
- 权重衰减:0.01
- 优化器:Adam(β1=0.9,β2=0.999,ε=1e-08)
- 训练轮数:50
评估指标
- 训练损失:0.052300
- 验证损失:0.006372
- 验证集 BLEU 分数:0.9964783232500736
🔧 技术细节
本项目基于transformers
库,使用T5ForConditionalGeneration
模型进行微调。通过 Seq2Seq 训练方式,在越南语新闻摘要数据集上进行训练,以提高模型的摘要生成能力。
📄 许可证
本项目采用 MIT 许可证。
📋 信息表格
属性 |
详情 |
模型类型 |
微调后的 T5 条件生成模型 |
训练数据 |
OpenHust/vietnamese-summarization |
基础模型 |
google/mt5-small |
训练超参数 |
学习率 3e-4,训练批次大小 12,评估批次大小 12,随机种子 42,权重衰减 0.01,优化器 Adam(β1=0.9,β2=0.999,ε=1e-08),训练轮数 50 |
评估指标 |
训练损失 0.052300,验证损失 0.006372,验证集 BLEU 分数 0.9964783232500736 |
Python 版本 |
3.10.12 |
依赖库版本 |
pandas==2.2.3,numpy==1.26.4,torch==2.5.1,nltk==3.2.4,pytorch-cuda==12.1,datasets==3.3.1,tqdm==4.67.1,transformers==4.47.0 |