语言: 葡萄牙语
许可证: MIT
标签:
- 问答系统
- BERT
- 大型BERT
- PyTorch
数据集:
- brWaC
- SQuAD
- squad_v1_pt
评估指标:
- SQuAD
示例:
- 文本: "全球新冠疫情何时开始?"
上下文: "COVID-19大流行,又称冠状病毒大流行,是由严重急性呼吸系统综合征冠状病毒2(SARS-CoV-2)引起的呼吸系统疾病持续大流行。该病毒源于动物,已知首例病例可追溯至2019年12月中国武汉。"
- 文本: "COVID-19在何处被发现?"
上下文: "COVID-19大流行,又称冠状病毒大流行,是由严重急性呼吸系统综合征冠状病毒2(SARS-CoV-2)引起的呼吸系统疾病持续大流行。该病毒源于动物,已知首例病例可追溯至2019年12月中国武汉。"
葡萄牙语大型BERT问答模型(基于SQuAD v1.1微调)

简介
该模型基于Deep Learning Brasil团队提供的葡萄牙语SQuAD v1.1数据集训练。
使用的语言模型是Neuralmind.ai开发的BERTimbau Large(又称"bert-large-portuguese-cased"):BERTimbau是针对巴西葡萄牙语的预训练BERT模型,在命名实体识别、句子文本相似度和文本蕴含识别三个下游NLP任务中达到最先进性能。提供基础和大型两种规模。
方法信息
所有技术细节详见博客文章:NLP | 如何基于大型BERT训练任意语言的问答模型?通过基础BERT提升模型性能的葡萄牙语案例研究
GitHub代码笔记本
question_answering_BERT_large_cased_squad_v11_pt.ipynb (nbviewer版本)
性能表现
获得如下评估结果:
F1值 = 84.43(基础模型为82.50)
精确匹配率 = 72.68(基础模型为70.49)
使用方式——Pipeline调用
import transformers
from transformers import pipeline
context = r"""
COVID-19大流行,又称冠状病毒大流行,是由严重急性呼吸系统综合征冠状病毒2(SARS-CoV-2)引起的呼吸系统疾病持续大流行...
[此处保留原文完整上下文]
"""
model_name = 'pierreguillou/bert-large-cased-squad-v1.1-portuguese'
nlp = pipeline("question-answering", model=model_name)
question = "全球新冠疫情何时开始?"
result = nlp(question=question, context=context)
print(f"答案:'{result['answer']}',置信度:{round(result['score'], 4)},起始位置:{result['start']},结束位置:{result['end']}")
使用方式——Auto类调用
from transformers import AutoTokenizer, AutoModelForQuestionAnswering
tokenizer = AutoTokenizer.from_pretrained("pierreguillou/bert-large-cased-squad-v1.1-portuguese")
model = AutoModelForQuestionAnswering.from_pretrained("pierreguillou/bert-large-cased-squad-v1.1-portuguese")
或直接克隆模型仓库:
git lfs install
git clone https://huggingface.co/pierreguillou/bert-large-cased-squad-v1.1-portuguese
GIT_LFS_SKIP_SMUDGE=1 git clone https://huggingface.co/pierreguillou/bert-large-cased-squad-v1.1-portuguese
局限性及偏差
模型训练数据来自葡萄牙语SQuAD,可能包含大量未过滤的非中立内容和偏见。
作者
葡萄牙语大型BERT问答模型由Pierre GUILLOU基于多家组织的开源代码、平台和建议完成训练评估(完整致谢列表),特别感谢Hugging Face、Neuralmind.ai、Deep Learning Brasil团队和AI Lab。
引用
若使用本作品,请引用:
@inproceedings{pierreguillou2021bertlargecasedsquadv11portuguese,
title={基于SQuAD v1.1微调的葡萄牙语大型BERT问答模型},
author={Pierre Guillou},
year={2021}
}