🚀 Wangchanberta问答模型
Wangchanberta问答模型基于预训练模型 wangchanberta-base-att-spm-uncased,使用thaiqa_squad数据集进行微调,可有效处理泰语问答任务。
🚀 快速开始
模型简介
预训练模型:wangchanberta-base-att-spm-uncased。这是一个基于wangchanberta-base-att-spm-uncased的模型,使用thaiqa_squad数据集进行了微调。
源代码
你可以在 这里 找到该项目的源代码。
💻 使用示例
基础用法
以下是数据清洗部分的代码示例,展示了如何使用BeautifulSoup移除HTML标签以及使用string.punctuation
移除标点符号。
from bs4 import BeautifulSoup
example = """<doc id="376583" url="https://th.wikipedia.org/wiki?curid=376583" title="ลูนา 1">
ลูนา 1 ลูนา 1 (อี-1 ซีรีส์) ซึ่งในขณะนั้นรู้จักกันในชื่อ เมชตา (; "ความฝัน") เป็นยานอวกาศลำแรกที่เดินทางไปถึงบริเวณใกล้เคียงของดวงจันทร์
และเป็นยานอวกาศลำแรกในโครงการลูนาของโซเวียตที่สามารถปล่อยขึ้นไปในทิศทางเดียวกับดวงจันทร์ได้สำเร็จ</doc>"""
example = BeautifulSoup(example).get_text()
print(example)
import string
punct = string.punctuation
no_punct = [char for char in example if char not in punct]
example = ''.join(no_punct)
print(example)
📚 详细文档
数据集信息
- 语言:泰语(th)
- 数据集:thaiqa_squad
- 任务类型:问答(question-answering)
部分问答示例
问题1
- 问题:ใครเป็นคนกล่าวถึง nlp
- 背景:自然语言处理(Natural language processing - NLP)是语言学、计算机科学、信息工程和人工智能的一个子领域,研究计算机语言与人类(自然)语言之间的相互作用,旨在使计算机程序能够分析和转换自然语言数据。自然语言处理在1950年被提及,当时英国科学家艾伦·图灵提出了一种测试计算机或机器是否能够像人类一样思考或行动的方法,这种方法现在被称为图灵测试。目前,自然语言处理普遍采用特征学习和深度学习[1][2],能够取得良好的效果,例如在语言模型[3]中,与传统的基于统计的自然语言处理方法或基于规则的处理方法相比。
问题2
- 问题:เฝิง เส้าเฟิง รับบทอะไรใน The Palace
- 背景:冯绍峰(William Feng, Feng Shaofeng)是因《鸿门宴传奇》和《兰陵王》而闻名的演员,出生于1978年10月7日。他一夜成名,在2011年出演穿越剧《宫锁心玉》中的“八阿哥”一角,与杨幂搭档。如今,冯绍峰成为娱乐圈中备受瞩目的男主角之一,也是许多女孩心目中的理想型。他不仅长相帅气,家庭背景也十分显赫。冯绍峰是中国大型纺织企业老板的独子,其家族企业在温州、广州和福州都有工厂,总资产不少于10亿人民币。他是家族唯一的继承人,但由于他渴望进入娱乐圈,便选择在上海戏剧学院学习表演。毕业后,他在娱乐圈摸爬滚打了10多年,才取得如今的成就。此外,还有消息称他正在与《金陵十三钗》的女主角“倪妮”恋爱。