X

XLMR BERTovski

由 MaCoCu 开发
基于保加利亚语和马其顿语文本大规模预训练的语言模型,是MaCoCu项目的一部分
下载量 36
发布时间 : 8/11/2022
模型介绍
内容详情
替代品

模型简介

XLMR-BERTovski是一个基于XLM-RoBERTa-large继续训练的保加利亚语和马其顿语语言模型,主要用于自然语言处理任务

模型特点

大规模双语预训练
在74GB的保加利亚语和马其顿语文本上训练,包含超过70亿个标记
优化的数据采样
对数据量较少的马其顿语数据进行双倍采样,平衡两种语言的训练
高质量训练数据
严格筛选.bg和.mk域数据,避免低质量机器翻译内容

模型能力

词性标注(UPOS/XPOS)
命名实体识别(NER)
常识推理(COPA)
保加利亚语文本处理
马其顿语文本处理

使用案例

语言分析
保加利亚语词性标注
对保加利亚语文本进行词性标注
测试集准确率达99.5%(UPOS)
马其顿语命名实体识别
识别马其顿语文本中的命名实体
测试集F1值达96.3%
语言理解
常识推理任务
解决保加利亚语和马其顿语的COPA常识推理问题
准确率分别达54.6%和55.6%