license: mit
datasets:
- airesearch/wangchanx-seed-free-synthetic-instruct-thai-120k
language:
- th
metrics:
- bleu
- rouge
- exact_match
base_model:
- kobkrit/thai-t5-base
pipeline_tag: text2text-generation
library_name: transformers
ThaiT5-Instruct
模型说明
ThaiT5-Instruct
是基于kobkrit/thai-t5-base
微调的版本,训练数据来自WangchanX Seed-Free Synthetic Instruct Thai 120k数据集。该模型支持多种自然语言处理任务,包括:
模型经过13轮训练,可通过更多资源进一步提升性能。
训练细节
- 基础模型:
kobkrit/thai-t5-base
- 训练轮数:
13
- 单设备批大小:
32
- 梯度累积步数:
2
- 优化器: AdamW
- 硬件配置:
A100
每轮训练损失:
[2.2463, 1.7010, 1.5261, 1.4626, 1.4085, 1.3844, 1.3647, 1.3442, 1.3373, 1.3182, 1.3169, 1.3016]
每轮验证损失:
[1.4781, 1.3761, 1.3131, 1.2775, 1.2549, 1.2364, 1.2226, 1.2141, 1.2043, 1.1995, 1.1954, 1.1929]
评估结果
模型采用多种自然语言处理指标进行评估,结果如下:
指标 |
得分 |
ROUGE-1 |
0.0617 |
ROUGE-2 |
0.0291 |
ROUGE-L |
0.061 |
BLEU |
0.0093 |
精确匹配率 |
0.2516 |
F1值 |
27.8984 |
使用指南
基础推理(无上下文)
from transformers import AutoModelForSeq2SeqLM, AutoTokenizer
model = AutoModelForSeq2SeqLM.from_pretrained("Peenipat/ThaiT5-Instruct", trust_remote_code=True)
tokenizer = AutoTokenizer.from_pretrained("Peenipat/ThaiT5-Instruct")
input_text = "หวัดดี"
inputs = tokenizer(input_text, return_tensors="pt")
outputs = model.generate(input_ids=inputs["input_ids"])
output_text = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(output_text)
示例:
input_text = "คำว่า ฮัก หมายถึงอะไร"
inputs = tokenizer(input_text, return_tensors="pt")
outputs = model.generate(input_ids=inputs["input_ids"])
output_text = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(output_text)
输出:
"ฮัก หมายถึง ภาษา สันสกฤต ภาษา สันสกฤต "
问答任务(带上下文)
from transformers import AutoModelForSeq2SeqLM, AutoTokenizer, pipeline
model = AutoModelForSeq2SeqLM.from_pretrained("Peenipat/ThaiT5-Instruct", trust_remote_code=True)
tokenizer = AutoTokenizer.from_pretrained("Peenipat/ThaiT5-Instruct")
model.eval()
qa_pipeline = pipeline("text2text-generation", model=model, tokenizer=tokenizer)
def ask_question():
context = input("输入上下文: ")
question = input("输入问题: ")
input_text = f"Context: {context} Question: {question}"
output = qa_pipeline(input_text,
max_length=60,
min_length=20,
no_repeat_ngram_size=3,
num_beams=5,
early_stopping=True)
output_text = output[0]['generated_text']
print("\n输出结果:")
print(output_text)
示例:
输入上下文: ฮัก คือความรู้สึกผูกพันและห่วงใยที่เกิดขึ้นระหว่างคนที่มีความสำคัญต่อกัน ไม่ว่าจะเป็นฮักหนุ่มสาว ฮักพ่อแม่ลูก หรือฮักพี่น้อง ฮักบ่ได้หมายถึงแค่ความสุข แต่ยังรวมถึงความเข้าใจ การอดทน และการเสียสละเพื่อกันและกัน คนอีสานมักแสดงความฮักผ่านการกระทำมากกว่าคำพูด เช่น การดูแลเอาใจใส่ และการอยู่เคียงข้างยามทุกข์ยาก ฮักแท้คือฮักที่มั่นคง บ่เปลี่ยนแปลงตามกาลเวลา และเต็มไปด้วยความจริงใจ
输入问题: คำว่า ฮัก หมายถึงอะไร
输出结果:
ฮัก ความรู้สึกผูกพันและห่วงใย เกิดขึ้นระหว่างคนมีความสําคัญต่อกัน ฮักบ่ได้หมายถึงความสุข ความเข้าใจ การอดทน เสียสละเพื่อกันและกัน คนอีสานมักแสดงความฮักผ่านการกระทํามากกว่าคําพูด ดูแลเอาใจใส่ ที่อยู่เคียงข้างยามทุกข์
局限性及改进方向
- 可通过增加训练资源进一步提升模型性能
- 复杂推理任务的表现可能需要针对特定领域数据进行微调
- 本模型不具备ChatGPT、Gemini等先进AI模型的通用智能,其优势在于从给定上下文中提取答案而非自主生成知识
引用说明
如需使用本模型,请按以下格式引用:
@misc{PeenipatThaiT5Instruct,
title={ThaiT5-Instruct},
author={Peenipat},
year={2025},
publisher={Hugging Face},
url={https://huggingface.co/Peenipat/ThaiT5-Instruct}
}