语言:意大利语
缩略图:
基于SQuAD_it v1微调的意大利语BERT模型
意大利语BERT基础版(区分大小写)在意大利语SQuAD上微调,用于问答下游任务。
意大利语BERT详情
意大利语BERT模型的源数据包括最新的维基百科转储和OPUS语料库集合中的各类文本。最终训练语料库大小为13GB,包含2,050,057,573个词元。
句子分割使用NLTK(比spacy更快)。区分大小写和不区分大小写的模型初始子词序列长度为512,训练约2-3百万步。
对于XXL意大利语模型,我们使用相同的OPUS训练数据,并扩展了OSCAR语料库的意大利语部分。因此,最终训练语料库大小为81GB,包含13,138,379,147个词元。
更多详情参见其官方模型卡。
由MDZ的Stefan创建。
下游任务(问答)详情 - 数据集 📚 🧐 ❓
意大利语SQuAD v1.1源自SQuAD数据集,通过半自动翻译将SQuAD数据集转换为意大利语。它是意大利语事实型问题开放问答过程的大规模数据集。
该数据集包含超过60,000个问题/答案对,源自原始英文数据集。 数据集分为训练集和测试集,以支持问答系统基准测试的可复现性:
SQuAD_it-train.json
:包含源自原始SQuAD 1.1训练材料的训练示例。
SQuAD_it-test.json
:包含源自原始SQuAD 1.1开发材料的测试/基准示例。
关于SQuAD-it的更多详情见[Croce et al. 2018]。原始论文可在此链接找到。
模型训练 🏋️
模型在Tesla P100 GPU和25GB RAM上训练。
微调脚本可在此链接找到。
结果 📝
原始指标
{
"exact": 62.5180707057432,
"f1": 74.16038329042492,
"total": 7609,
"HasAns_exact": 62.5180707057432,
"HasAns_f1": 74.16038329042492,
"HasAns_total": 7609,
"best_exact": 62.5180707057432,
"best_exact_thresh": 0.0,
"best_f1": 74.16038329042492,
"best_f1_thresh": 0.0
}
对比 ⚖️
模型实战 🚀
使用pipelines快速体验 🧪
from transformers import pipeline
nlp_qa = pipeline(
'question-answering',
model='mrm8488/bert-italian-finedtuned-squadv1-it-alfa',
tokenizer='mrm8488/bert-italian-finedtuned-squadv1-it-alfa'
)
nlp_qa(
{
'question': '你在为哪种语言工作?',
'context': 'Manuel Romero正积极与HF/transformers合作,将最新的自然语言处理技术应用于西班牙语'
}
)
由Manuel Romero/@mrm8488创建 | LinkedIn
西班牙制造,满怀❤️
数据集引用
@InProceedings{10.1007/978-3-030-03840-3_29,
author="Croce, Danilo and Zelenanska, Alexandra and Basili, Roberto",
editor="Ghidini, Chiara and Magnini, Bernardo and Passerini, Andrea and Traverso, Paolo",
title="Neural Learning for Question Answering in Italian",
booktitle="AI*IA 2018 -- Advances in Artificial Intelligence",
year="2018",
publisher="Springer International Publishing",
address="Cham",
pages="389--402",
isbn="978-3-030-03840-3"
}