R

Roberta Base Ca

由 PlanTL-GOB-ES 开发
基于RoBERTa架构的加泰罗尼亚语预训练语言模型,由西班牙政府机构开发
下载量 15.56k
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

采用掩码语言建模预训练的加泰罗尼亚语Transformer模型,适用于各类自然语言处理任务

模型特点

专业语料训练
整合政府公报、新闻、维基百科等高质量加泰罗尼亚语语料
全面性能评估
在CLUB基准测试中超越mBERT/XLM-RoBERTa等多语言模型
高效预训练
使用16块V100 GPU在48小时内完成18亿词元的训练

模型能力

掩码词预测
文本分类
命名实体识别
语义相似度计算
问答系统

使用案例

政府文本处理
政府公报分析
处理加泰罗尼亚政府公报(DOGC)的自动化理解
新闻媒体
新闻分类
对加泰罗尼亚通讯社(ACN)新闻进行主题分类
74.16%准确率(TeCla数据集)
教育研究
语言理解评估
作为CLUB基准测试的基础模型
NER任务F1值88.13,优于对比模型