bert-medium-amharic开源阿姆哈拉语模型 - 媲美大模型实现高效语言处理

首页

Bert Medium Amharic

由 rasyosef 开发

基于bert-medium架构预训练的阿姆哈拉语模型，参数量4050万，在2.9亿词元上训练，性能媲美更大规模的多语言模型。

大型语言模型

Transformers

其他#阿姆哈拉语NLP #低参数量高效 #填充掩码

下载量 2,661

发布时间 : 6/16/2024

模型简介

专为阿姆哈拉语设计的BERT模型，支持填充掩码任务，可用于文本理解和生成任务。

模型特点

高效参数利用

仅4050万参数即达到与2.79亿参数模型相当的阿姆哈拉语处理能力

专用分词器

基于28k词汇量的阿姆哈拉语专用分词器

多数据集训练

整合oscar、mc4和阿姆哈拉语句子语料库进行训练

模型能力

阿姆哈拉语文本理解

填充掩码预测

下游任务微调

使用案例

自然语言处理

情感分析

对阿姆哈拉语文本进行情感倾向分类

F1分数0.83

命名实体识别

识别阿姆哈拉语文本中的人名、地名等实体

F1分数0.68

🚀 bert-medium-amharic

bert-medium-amharic模型与bert-medium架构相同，它使用oscar、mc4和amharic-sentences-corpus数据集中的阿姆哈拉语子集从头开始预训练，总共使用了2.9亿个标记。分词器也是在相同的文本语料库上从头开始训练的，词汇量为2.8万。

模型信息

属性	详情
库名称	transformers
数据集	oscar、mc4、rasyosef/amharic-sentences-corpus
语言	阿姆哈拉语（am）
评估指标	困惑度（perplexity）
任务类型	掩码填充（fill-mask）

示例

示例1：ከሀገራቸው ከኢትዮጵያ ከወጡ ግማሽ ምዕተ [MASK] ተቆጥሯል።
示例2：ባለፉት አምስት ዓመታት የአውሮጳ ሀገራት የጦር [MASK] ግዢ በእጅጉ ጨምሯል።
示例3：ኬንያውያን ከዳር እስከዳር በአንድ ቆመው የተቃውሞ ድምጻቸውን ማሰማታቸውን ተከትሎ የዜጎችን ቁጣ የቀሰቀሰው የቀረጥ ጭማሪ ሕግ ትናንት በፕሬዝደንት ዊልያም ሩቶ [MASK] ቢደረግም ዛሬም ግን የተቃውሞው እንቅስቃሴ መቀጠሉ እየተነገረ ነው።
示例4：ተማሪዎቹ በውድድሩ ካሸነፉበት የፈጠራ ስራ መካከል [MASK] እና ቅዝቃዜን እንደአየር ሁኔታው የሚያስተካክል ጃኬት አንዱ ነው።

🚀 快速开始

你可以直接使用这个模型进行掩码语言建模：

>>> from transformers import pipeline
>>> unmasker = pipeline('fill-mask', model='rasyosef/bert-medium-amharic')
>>> unmasker("ከሀገራቸው ከኢትዮጵያ ከወጡ ግማሽ ምዕተ [MASK] ተቆጥሯል።")

[{'score': 0.5135582089424133,
  'token': 9345,
  'token_str': 'ዓመት',
  'sequence': 'ከሀገራቸው ከኢትዮጵያ ከወጡ ግማሽ ምዕተ ዓመት ተቆጥሯል ።'},
 {'score': 0.2923661470413208,
  'token': 9617,
  'token_str': 'ዓመታት',
  'sequence': 'ከሀገራቸው ከኢትዮጵያ ከወጡ ግማሽ ምዕተ ዓመታት ተቆጥሯል ።'},
 {'score': 0.09527599066495895,
  'token': 9913,
  'token_str': 'አመት',
  'sequence': 'ከሀገራቸው ከኢትዮጵያ ከወጡ ግማሽ ምዕተ አመት ተቆጥሯል ።'},
 {'score': 0.06960058212280273,
  'token': 10898,
  'token_str': 'አመታት',
  'sequence': 'ከሀገራቸው ከኢትዮጵያ ከወጡ ግማሽ ምዕተ አመታት ተቆጥሯል ።'},
 {'score': 0.019061630591750145,
  'token': 28157,
  'token_str': '##ዓመት',
  'sequence': 'ከሀገራቸው ከኢትዮጵያ ከወጡ ግማሽ ምዕተዓመት ተቆጥሯል ።'}]

📚 详细文档

微调

该模型在以下阿姆哈拉语NLP任务上进行了微调并评估：

情感分类

数据集：amharic-sentiment
代码：https://github.com/rasyosef/amharic-sentiment-classification

命名实体识别

数据集：amharic-named-entity-recognition
代码：https://github.com/rasyosef/amharic-named-entity-recognition

微调模型性能

报告的F1分数是宏平均值。

模型	大小（参数数量）	困惑度	情感分类（F1）	命名实体识别（F1）
bert-medium-amharic	4050万	13.74	0.83	0.68
bert-small-amharic	2780万	15.96	0.83	0.68
bert-mini-amharic	1070万	22.42	0.81	0.64
bert-tiny-amharic	418万	71.52	0.79	0.54
xlm-roberta-base	2.79亿		0.83	0.73
am-roberta	4.43亿		0.82	0.69