Hugging Face的标识
语言: 豪萨语
数据集:
bert-base-multilingual-cased-finetuned-hausa
模型描述
bert-base-multilingual-cased-finetuned-hausa 是通过在豪萨语文本上微调 bert-base-multilingual-cased 模型得到的豪萨语BERT模型。在文本分类和命名实体识别数据集上,它提供了比多语言BERT更好的性能。
具体来说,该模型是在豪萨语语料库上微调的bert-base-multilingual-cased模型。
预期用途与限制
使用方法
您可以将此模型与Transformers的pipeline一起使用,用于掩码标记预测。
>>> from transformers import pipeline
>>> unmasker = pipeline('fill-mask', model='Davlan/bert-base-multilingual-cased-finetuned-hausa')
>>> unmasker("Shugaban [MASK] Muhammadu Buhari ya amince da shawarar da ma’aikatar sufuri karkashin jagoranci")
[{'sequence':
'[CLS] Shugaban Nigeria Muhammadu Buhari ya amince da shawarar da ma [UNK] aikatar sufuri karkashin jagoranci [SEP]',
'score': 0.9762618541717529,
'token': 22045,
'token_str': 'Nigeria'},
{'sequence': '[CLS] Shugaban Ka Muhammadu Buhari ya amince da shawarar da ma [UNK] aikatar sufuri karkashin jagoranci [SEP]', 'score': 0.007239189930260181,
'token': 25444,
'token_str': 'Ka'},
{'sequence': '[CLS] Shugaban, Muhammadu Buhari ya amince da shawarar da ma [UNK] aikatar sufuri karkashin jagoranci [SEP]', 'score': 0.001990817254409194,
'token': 117,
'token_str': ','},
{'sequence': '[CLS] Shugaban Ghana Muhammadu Buhari ya amince da shawarar da ma [UNK] aikatar sufuri karkashin jagoranci [SEP]', 'score': 0.001566368737258017,
'token': 28682,
'token_str': 'Ghana'},
{'sequence': '[CLS] Shugabanmu Muhammadu Buhari ya amince da shawarar da ma [UNK] aikatar sufuri karkashin jagoranci [SEP]', 'score': 0.0009375187801197171,
'token': 11717,
'token_str': '##mu'}]
限制与偏差
该模型受限于其训练数据集,这些数据集来自特定时间跨度的实体标注新闻文章。这可能无法很好地泛化到不同领域的所有用例。
训练数据
该模型在Hausa CC-100上进行了微调
训练过程
该模型在单个NVIDIA V100 GPU上训练
测试集上的评估结果(F分数,5次运行的平均值)
BibTeX条目与引用信息
作者:David Adelani