S

Slovakbert

由 gerulata 开发
基于斯洛伐克语训练的预训练模型,采用掩码语言建模(MLM)目标,区分大小写。
下载量 5,009
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

斯洛伐克BERT是一个基于斯洛伐克语的预训练模型,主要用于掩码语言建模任务,也可在下游任务上进行微调。

模型特点

区分大小写
模型能够区分大小写,例如“slovensko”和“Slovensko”会被视为不同词汇。
大规模预训练数据
模型基于多个高质量数据集(如维基百科、开放字幕、OSCAR等)进行预训练,总计19.35GB文本。
优化的文本处理
训练数据经过URL和电子邮件地址替换、标点符号缩减、Markdown语法删除等处理,以提高模型性能。

模型能力

掩码语言建模
文本特征提取
下游任务微调

使用案例

自然语言处理
句子补全
使用掩码语言建模任务补全句子中的缺失部分。
例如,输入“Deti sa <mask> na ihrisku.”,模型会预测“hrali”等可能的词汇。
历史事件预测
预测历史事件中的关键信息,如年份。
例如,输入“Slovenské národne povstanie sa uskutočnilo v roku <mask>.”,模型会预测“1944”。