mt5-small-thai-qa-qg开源模型 - 支持从泰语文本中生成相关问题与答案

首页

Mt5 Small Thai Qa Qg

由 Pollawat 开发

这是一个基于泰语文本生成问题的模型，使用NSC2018语料库进行微调训练，能够从给定文本中生成相关问题及答案。

问答系统

Transformers

开源协议:MIT #泰语问答生成 #多语言T5微调 #教育内容自动化

下载量 25

发布时间 : 3/2/2022

模型简介

该模型基于谷歌mT5多语言模型，专门针对泰语文本的问题生成任务进行了优化，适用于问答系统开发和教育应用。

模型特点

泰语问题生成

专门针对泰语文本优化，能够从泰语内容中生成自然流畅的问题

多语言基础

基于谷歌mT5多语言模型，具备良好的多语言处理能力

端到端问答生成

能够同时生成问题和对应的答案，形成完整的问答对

模型能力

泰语文本理解

问题生成

答案提取

问答对生成

使用案例

教育技术

自动试题生成

从教材或学习材料中自动生成测试题目

可生成准确反映文本内容的问题及答案

问答系统

知识库问答对生成

为知识库内容自动生成常见问答对

提高知识库的覆盖面和可用性

🚀 泰文文本问题生成模型

本项目是一个用于从泰文文本中生成问题的模型，它基于Google的mT5模型，并在NSC2018语料库上进行了微调，能够有效助力泰文文本的问答相关任务。

🚀 快速开始

环境准备

确保你已经安装了transformers库，若未安装，可以使用以下命令进行安装：

pip install transformers

代码示例

from transformers import MT5Tokenizer, MT5ForConditionalGeneration
  
tokenizer = MT5Tokenizer.from_pretrained("Pollawat/mt5-small-thai-qa-qg")
model = MT5ForConditionalGeneration.from_pretrained("Pollawat/mt5-small-thai-qa-qg")

text = "กรุงเทพมหานคร เป็นเมืองหลวงและนครที่มีประชากรมากที่สุดของประเทศไทย เป็นศูนย์กลางการปกครอง การศึกษา การคมนาคมขนส่ง การเงินการธนาคาร การพาณิชย์ การสื่อสาร และความเจริญของประเทศ เป็นเมืองที่มีชื่อยาวที่สุดในโลก ตั้งอยู่บนสามเหลี่ยมปากแม่น้ำเจ้าพระยา มีแม่น้ำเจ้าพระยาไหลผ่านและแบ่งเมืองออกเป็น 2 ฝั่ง คือ ฝั่งพระนครและฝั่งธนบุรี กรุงเทพมหานครมีพื้นที่ทั้งหมด 1,568.737 ตร.กม. มีประชากรตามทะเบียนราษฎรกว่า 5 ล้านคน"

input_ids = tokenizer.encode(text, return_tensors='pt')

beam_output = model.generate(
    input_ids, 
    max_length=50,
    num_beams=5,
    early_stopping=True
)

print(tokenizer.decode(beam_output[0]))
>> <pad> <extra_id_0> แม่น้ําเจ้าพระยาไหลผ่านและแบ่งเมืองออกเป็น 2 ฝั่ง คือ ฝั่งใด <ANS> ฝั่งพระนครและฝั่งธนบุรี</s>

print(tokenizer.decode(beam_output[0], skip_special_tokens=True))
>> <extra_id_0> แม่น้ําเจ้าพระยาไหลผ่านและแบ่งเมืองออกเป็น 2 ฝั่ง คือ ฝั่งใด ฝั่งพระนครและฝั่งธนบุรี

✨ 主要特性

多语言支持：基于Google的mT5模型，具备一定的多语言处理能力。
特定领域优化：针对泰文文本的问答生成任务进行了微调，在泰文问答场景中表现更优。

📦 安装指南

使用以下命令安装所需的依赖库：

pip install transformers

💻 使用示例

基础用法

from transformers import MT5Tokenizer, MT5ForConditionalGeneration
  
tokenizer = MT5Tokenizer.from_pretrained("Pollawat/mt5-small-thai-qa-qg")
model = MT5ForConditionalGeneration.from_pretrained("Pollawat/mt5-small-thai-qa-qg")

text = "กรุงเทพมหานคร เป็นเมืองหลวงและนครที่มีประชากรมากที่สุดของประเทศไทย เป็นศูนย์กลางการปกครอง การศึกษา การคมนาคมขนส่ง การเงินการธนาคาร การพาณิชย์ การสื่อสาร และความเจริญของประเทศ เป็นเมืองที่มีชื่อยาวที่สุดในโลก ตั้งอยู่บนสามเหลี่ยมปากแม่น้ำเจ้าพระยา มีแม่น้ำเจ้าพระยาไหลผ่านและแบ่งเมืองออกเป็น 2 ฝั่ง คือ ฝั่งพระนครและฝั่งธนบุรี กรุงเทพมหานครมีพื้นที่ทั้งหมด 1,568.737 ตร.กม. มีประชากรตามทะเบียนราษฎรกว่า 5 ล้านคน"

input_ids = tokenizer.encode(text, return_tensors='pt')

beam_output = model.generate(
    input_ids, 
    max_length=50,
    num_beams=5,
    early_stopping=True
)

print(tokenizer.decode(beam_output[0]))
print(tokenizer.decode(beam_output[0], skip_special_tokens=True))

高级用法

# 可以根据实际需求调整模型生成的参数，如max_length、num_beams等，以获得不同的生成效果
from transformers import MT5Tokenizer, MT5ForConditionalGeneration
  
tokenizer = MT5Tokenizer.from_pretrained("Pollawat/mt5-small-thai-qa-qg")
model = MT5ForConditionalGeneration.from_pretrained("Pollawat/mt5-small-thai-qa-qg")

text = "กรุงเทพมหานคร เป็นเมืองหลวงและนครที่มีประชากรมากที่สุดของประเทศไทย เป็นศูนย์กลางการปกครอง การศึกษา การคมนาคมขนส่ง การเงินการธนาคาร การพาณิชย์ การสื่อสาร และความเจริญของประเทศ เป็นเมืองที่มีชื่อยาวที่สุดในโลก ตั้งอยู่บนสามเหลี่ยมปากแม่น้ำเจ้าพระยา มีแม่น้ำเจ้าพระยาไหลผ่านและแบ่งเมืองออกเป็น 2 ฝั่ง คือ ฝั่งพระนครและฝั่งธนบุรี กรุงเทพมหานครมีพื้นที่ทั้งหมด 1,568.737 ตร.กม. มีประชากรตามทะเบียนราษฎรกว่า 5 ล้านคน"

input_ids = tokenizer.encode(text, return_tensors='pt')

# 调整参数示例
beam_output = model.generate(
    input_ids, 
    max_length=100,
    num_beams=10,
    early_stopping=True
)

print(tokenizer.decode(beam_output[0]))
print(tokenizer.decode(beam_output[0], skip_special_tokens=True))