语言: 多语言
数据集:
- tydiqa
小组件示例:
- 文本: "问题: 她是做什么的? 上下文: Sofía拥有传播学学位,并曾在公关机构工作,负责监测和管理公关策略,包括与媒体和记者的关系。"
基于TyDiQA微调的mT5-base多语言问答模型 🗺📖❓
谷歌mT5-base模型在TyDi QA数据集(次要任务)上微调,专为多语言问答下游任务设计。
mT5模型详情
谷歌mT5项目
mT5基于mC4语料库预训练,覆盖101种语言:
南非荷兰语、阿尔巴尼亚语、阿姆哈拉语、阿拉伯语、亚美尼亚语、阿塞拜疆语、巴斯克语、白俄罗斯语、孟加拉语、保加利亚语、缅甸语、加泰罗尼亚语、宿务语、齐切瓦语、中文、科西嘉语、捷克语、丹麦语、荷兰语、英语、世界语、爱沙尼亚语、菲律宾语、芬兰语、法语、加利西亚语、格鲁吉亚语、德语、希腊语、古吉拉特语、海地克里奥尔语、豪萨语、夏威夷语、希伯来语、印地语、苗语、匈牙利语、冰岛语、伊博语、印尼语、爱尔兰语、意大利语、日语、爪哇语、卡纳达语、哈萨克语、高棉语、韩语、库尔德语、吉尔吉斯语、老挝语、拉丁语、拉脱维亚语、立陶宛语、卢森堡语、马其顿语、马尔加什语、马来语、马拉雅拉姆语、马耳他语、毛利语、马拉地语、蒙古语、尼泊尔语、挪威语、普什图语、波斯语、波兰语、葡萄牙语、旁遮普语、罗马尼亚语、俄语、萨摩亚语、苏格兰盖尔语、塞尔维亚语、绍纳语、信德语、僧伽罗语、斯洛伐克语、斯洛文尼亚语、索马里语、塞索托语、西班牙语、巽他语、斯瓦希里语、瑞典语、塔吉克语、泰米尔语、泰卢固语、泰语、土耳其语、乌克兰语、乌尔都语、乌兹别克语、越南语、威尔士语、西弗里西亚语、科萨语、意第绪语、约鲁巴语、祖鲁语。
注意:mT5仅针对mC4进行无监督预训练,未包含任何监督训练。因此,该模型需在下游任务上微调后方可使用。
预训练数据集:mC4
其他社区检查点:此处查阅
论文:mT5:大规模多语言预训练文本到文本转换器
作者:Linting Xue, Noah Constant, Adam Roberts, Mihir Kale, Rami Al-Rfou, Aditya Siddhant, Aditya Barua, Colin Raffel
数据集详情 📚
TyDi QA是一个涵盖11种类型多样语言的问答数据集,包含20.4万个问答对。其语言在类型学(各语言表达的语言特征集合)上具有高度多样性,使得在此数据集表现优异的模型能泛化至全球多数语言。该数据集包含英语语料库中未出现的语言现象。为提供真实的信息检索任务并避免启动效应,问题由想知道答案但尚未知晓答案的人员撰写(不同于SQuAD及其衍生数据集),且数据直接以各语言收集而非通过翻译获取(不同于MLQA和XQuAD)。
数据集 |
任务 |
拆分 |
样本量 |
TyDi QA |
GoldP |
训练集 |
49881 |
TyDi QA |
GoldP |
验证集 |
5077 |
验证集结果 📝
模型实战 🚀
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
tokenizer = AutoTokenizer.from_pretrained("Narrativa/mT5-base-finetuned-tydiQA-xqa")
model = AutoModelForCausalLM.from_pretrained("Narrativa/mT5-base-finetuned-tydiQA-xqa").to(device)
def get_response(question, context, max_length=32):
input_text = '问题: %s 上下文: %s' % (question, context)
features = tokenizer([input_text], return_tensors='pt')
output = model.generate(input_ids=features['input_ids'].to(device),
attention_mask=features['attention_mask'].to(device),
max_length=max_length)
return tokenizer.decode(output[0])
context = 'HuggingFace在EMNLP2020上荣获最佳演示论文奖。'
question = 'HuggingFace获得了什么?'
get_response(question, context)
context = 'HuggingFace ganó la mejor demostración con su paper en la EMNLP2020.'
question = 'Qué ganó HuggingFace?'
get_response(question, context)
context = 'HuggingFace выиграл лучшую демонстрационную работу на EMNLP2020.'
question = 'Что победило в HuggingFace?'
get_response(question, context)
创建者:Narrativa
关于Narrativa:自然语言生成(NLG)| 我们的机器学习平台Gabriele构建并部署自然语言解决方案。#NLG #AI