库名称: transformers
数据集:
- oscar
- mc4
- rasyosef/阿姆哈拉语句子语料库
语言:
- 阿姆哈拉语
评估指标:
- 困惑度
管道标签: 填充掩码
小部件示例:
- 文本: 离开他们国家埃塞俄比亚后,半数[MASK]已被计算在内。
示例标题: 示例1
- 文本: 过去五年中,欧洲国家的军事[MASK]采购大幅增加。
示例标题: 示例2
- 文本: 肯尼亚人从一端到另一端站在一起抗议后,引发公民愤怒的增税法案昨日虽经总统威廉·鲁托[MASK],但今天抗议活动仍在继续。
示例标题: 示例3
- 文本: 学生在竞赛中获胜的创新作品包括[MASK]和可根据天气调节温度的夹克。
示例标题: 示例4
阿姆哈拉语中型BERT模型
本模型架构与bert-medium相同,使用oscar、mc4和阿姆哈拉语句子语料库数据集的阿姆哈拉语子集从头预训练,总计处理了2.9亿个词元。分词器同样基于该文本语料库训练,词汇量为28k。
评估结果如下:
尽管该模型仅有4050万参数,其性能却可与参数量7倍于它的2.79亿
参数xlm-roberta-base多语言模型在相同阿姆哈拉语评估集上媲美。
使用方法
可直接通过填充掩码管道使用本模型:
>>> from transformers import pipeline
>>> unmasker = pipeline('fill-mask', model='rasyosef/bert-medium-amharic')
>>> unmasker("离开他们国家埃塞俄比亚后,半数[MASK]已被计算在内。")
[{'score': 0.5135582089424133,
'token': 9345,
'token_str': '年',
'sequence': '离开他们国家埃塞俄比亚后,半数 年 已被计算在内。'},
{'score': 0.2923661470413208,
'token': 9617,
'token_str': '年份',
'sequence': '离开他们国家埃塞俄比亚后,半数 年份 已被计算在内。'},
{'score': 0.09527599066495895,
'token': 9913,
'token_str': '年度',
'sequence': '离开他们国家埃塞俄比亚后,半数 年度 已被计算在内。'},
{'score': 0.06960058212280273,
'token': 10898,
'token_str': '年度数',
'sequence': '离开他们国家埃塞俄比亚后,半数 年度数 已被计算在内。'},
{'score': 0.019061630591750145,
'token': 28157,
'token_str': '##年',
'sequence': '离开他们国家埃塞俄比亚后,半数年已被计算在内。'}]
微调应用
本模型已在以下阿姆哈拉语NLP任务上完成微调和评估:
- 情感分类
- 数据集: 阿姆哈拉语情感分析
- 代码: https://github.com/rasyosef/amharic-sentiment-classification
- 命名实体识别
- 数据集: 阿姆哈拉语命名实体识别
- 代码: https://github.com/rasyosef/amharic-named-entity-recognition
微调模型性能
报告中的F1分数为宏观平均值。
模型 |
参数量 |
困惑度 |
情感分析(F1) |
命名实体识别(F1) |
阿姆哈拉语中型BERT |
4050万 |
13.74 |
0.83 |
0.68 |
阿姆哈拉语小型BERT |
2780万 |
15.96 |
0.83 |
0.68 |
阿姆哈拉语迷你BERT |
1070万 |
22.42 |
0.81 |
0.64 |
阿姆哈拉语微型BERT |
418万 |
71.52 |
0.79 |
0.54 |
xlm-roberta-base |
2.79亿 |
|
0.83 |
0.73 |
阿姆哈拉语RoBERTa |
4.43亿 |
|
0.82 |
0.69 |