🚀 阿姆哈拉语中型RoBERTa模型
本模型解决了阿姆哈拉语自然语言处理中缺乏高性能预训练模型的问题,通过使用阿姆哈拉语语料从头开始预训练,为阿姆哈拉语的情感分类、命名实体识别等任务提供了强大的支持,提升了相关NLP任务的处理效果。
模型信息
属性 |
详情 |
库名称 |
transformers |
数据集 |
oscar、mc4、rasyosef/amharic - sentences - corpus |
语言 |
阿姆哈拉语(am) |
评估指标 |
困惑度(perplexity) |
任务类型 |
掩码填充(fill - mask) |
示例展示
- 示例1:
- 文本:
ከሀገራቸው ከኢትዮጵያ ከወጡ ግማሽ ምዕተ <mask> ተቆጥሯል።
- 示例2:
- 文本:
ባለፉት አምስት ዓመታት የአውሮጳ ሀገራት የጦር <mask> ግዢ በእጅጉ ጨምሯል።
- 示例3:
- 文本:
ኬንያውያን ከዳር እስከዳር በአንድ ቆመው የተቃውሞ ድምጻቸውን ማሰማታቸውን ተከትሎ የዜጎችን ቁጣ የቀሰቀሰው የቀረጥ ጭማሪ ሕግ ትናንት በፕሬዝደንት ዊልያም ሩቶ <mask> ቢደረግም ዛሬም ግን የተቃውሞው እንቅስቃሴ መቀጠሉ እየተነገረ ነው።
- 示例4:
- 文本:
ተማሪዎቹ በውድድሩ ካሸነፉበት የፈጠራ ስራ መካከል <mask> እና ቅዝቃዜን እንደአየር ሁኔታው የሚያስተካክል ጃኬት አንዱ ነው።
🚀 快速开始
模型概述
本模型与 [xlm - roberta - base](https://huggingface.co/FacebookAI/xlm - roberta - base) 架构相同,使用 oscar、mc4 和 [amharic - sentences - corpus](https://huggingface.co/datasets/rasyosef/amharic - sentences - corpus) 数据集的阿姆哈拉语子集从头开始预训练。总共使用了 2.9亿个标记 进行训练,分词器也在相同的文本语料库上从头开始训练,词汇量为32k。模型在 A100 40GB GPU 上训练了 15小时。
在评估集上,模型取得了以下结果:
尽管该模型只有 4200万个参数,但在阿姆哈拉语情感分类和命名实体识别任务上,它的表现优于参数规模大7倍(2.79亿个参数)的 [xlm - roberta - base](https://huggingface.co/FacebookAI/xlm - roberta - base) 多语言模型。
💻 使用示例
基础用法
你可以直接使用该模型进行掩码语言建模:
>>> from transformers import pipeline
>>> unmasker = pipeline('fill-mask', model='rasyosef/roberta-medium-amharic')
>>> unmasker("ከሀገራቸው ከኢትዮጵያ ከወጡ ግማሽ ምዕተ <mask> ተቆጥሯል።")
[{'score': 0.7755730152130127,
'token': 137,
'token_str': 'ዓመት',
'sequence': 'ከሀገራቸው ከኢትዮጵያ ከወጡ ግማሽ ምዕተ ዓመት ተቆጥሯል።'},
{'score': 0.09340856224298477,
'token': 346,
'token_str': 'አመት',
'sequence': 'ከሀገራቸው ከኢትዮጵያ ከወጡ ግማሽ ምዕተ አመት ተቆጥሯል።'},
{'score': 0.08586721867322922,
'token': 217,
'token_str': 'ዓመታት',
'sequence': 'ከሀገራቸው ከኢትዮጵያ ከወጡ ግማሽ ምዕተ ዓመታት ተቆጥሯል።'},
{'score': 0.011987944133579731,
'token': 733,
'token_str': 'አመታት',
'sequence': 'ከሀገራቸው ከኢትዮጵያ ከወጡ ግማሽ ምዕተ አመታት ተቆጥሯል።'},
{'score': 0.010042797774076462,
'token': 1392,
'token_str': 'ዓመቱ',
'sequence': 'ከሀገራቸው ከኢትዮጵያ ከወጡ ግማሽ ምዕተ ዓመቱ ተቆጥሯል።'}]
📚 详细文档
微调信息
本模型在以下阿姆哈拉语NLP任务上进行了微调并评估:
- 情感分类
- 数据集:[amharic - sentiment](https://huggingface.co/datasets/rasyosef/amharic - sentiment)
- 代码:https://github.com/rasyosef/amharic - sentiment - classification
- 命名实体识别
- 数据集:[amharic - named - entity - recognition](https://huggingface.co/datasets/rasyosef/amharic - named - entity - recognition)
- 代码:https://github.com/rasyosef/amharic - named - entity - recognition
微调模型性能
报告的F1分数为宏平均值。
模型 |
规模(参数数量) |
困惑度 |
情感分类(F1) |
命名实体识别(F1) |
roberta - base - amharic |
1.1亿 |
8.08 |
0.88 |
0.78 |
roberta - medium - amharic |
4220万 |
11.59 |
0.84 |
0.75 |
bert - medium - amharic |
4050万 |
13.74 |
0.83 |
0.68 |
bert - small - amharic |
2780万 |
15.96 |
0.83 |
0.68 |
bert - mini - amharic |
1070万 |
22.42 |
0.81 |
0.64 |
bert - tiny - amharic |
418万 |
71.52 |
0.79 |
0.54 |
xlm - roberta - base |
2.79亿 |
|
0.83 |
0.73 |
afro - xlmr - base |
2.78亿 |
|
0.83 |
0.75 |
afro - xlmr - large |
5.6亿 |
|
0.86 |
0.76 |
am - roberta |
4.43亿 |
|
0.82 |
0.69 |