🚀 斯瓦希里语微调的多语言BERT基础模型(bert-base-multilingual-cased-finetuned-swahili)
斯瓦希里语微调的多语言BERT基础模型 是一个 斯瓦希里语BERT模型,它通过在斯瓦希里语文本上对 bert-base-multilingual-cased 模型进行微调而得到。与多语言BERT相比,它在文本分类和命名实体识别数据集上表现出 更优的性能。
🚀 快速开始
模型描述
bert-base-multilingual-cased-finetuned-swahili 是在斯瓦希里语语料库上对 bert-base-multilingual-cased 模型进行微调得到的。
预期用途和局限性
如何使用
你可以使用Transformers库的 pipeline 来使用这个模型进行掩码标记预测。
>>> from transformers import pipeline
>>> unmasker = pipeline('fill-mask', model='Davlan/bert-base-multilingual-cased-finetuned-swahili')
>>> unmasker("Jumatatu, Bwana Kagame alielezea shirika la France24 huko [MASK] kwamba \"hakuna uhalifu ulitendwa\"")
[{'sequence': 'Jumatatu, Bwana Kagame alielezea shirika la France24 huko Paris kwamba hakuna uhalifu ulitendwa',
'score': 0.31642526388168335,
'token': 10728,
'token_str': 'Paris'},
{'sequence': 'Jumatatu, Bwana Kagame alielezea shirika la France24 huko Rwanda kwamba hakuna uhalifu ulitendwa',
'score': 0.15753623843193054,
'token': 57557,
'token_str': 'Rwanda'},
{'sequence': 'Jumatatu, Bwana Kagame alielezea shirika la France24 huko Burundi kwamba hakuna uhalifu ulitendwa',
'score': 0.07211585342884064,
'token': 57824,
'token_str': 'Burundi'},
{'sequence': 'Jumatatu, Bwana Kagame alielezea shirika la France24 huko France kwamba hakuna uhalifu ulitendwa',
'score': 0.029844321310520172,
'token': 10688,
'token_str': 'France'},
{'sequence': 'Jumatatu, Bwana Kagame alielezea shirika la France24 huko Senegal kwamba hakuna uhalifu ulitendwa',
'score': 0.0265930388122797,
'token': 38052,
'token_str': 'Senegal'}]
局限性和偏差
该模型受限于其特定时间段内标注实体的新闻文章训练数据集,可能无法在不同领域的所有用例中实现良好的泛化。
📚 详细文档
训练数据
该模型在 斯瓦希里语CC - 100 上进行了微调。
训练过程
该模型在单个NVIDIA V100 GPU上进行训练。
测试集评估结果(F分数,5次运行的平均值)
数据集 |
多语言BERT F1 |
斯瓦希里语BERT F1 |
MasakhaNER |
86.80 |
89.36 |
BibTeX引用和引用信息
作者:David Adelani