语言: 斯洛伐克语
标签:
- 斯洛伐克BERT
许可证: MIT
数据集:
- 维基百科
- 开放字幕
- OSCAR
- Gerulata网络爬取
- Gerulata监控
- blbec.online
斯洛伐克BERT(基础规模模型)
斯洛伐克BERT是基于斯洛伐克语训练的预训练模型,采用掩码语言建模(MLM)目标。该模型区分大小写:例如“slovensko”和“Slovensko”会被视为不同词汇。
用途与限制
您可以直接使用该原始模型进行掩码语言建模,但更推荐在下游任务上进行微调。
重要提示:模型未针对““和””(直接引号)字符进行训练,因此在分词前建议将所有““和””替换为标准的双引号"。
使用方法
您可以通过以下管道直接使用该模型进行掩码语言建模:
from transformers import pipeline
unmasker = pipeline('fill-mask', model='gerulata/slovakbert')
unmasker("Deti sa <mask> na ihrisku.")
[{'sequence': 'Deti sa hrali na ihrisku.',
'score': 0.6355380415916443,
'token': 5949,
'token_str': ' hrali'},
{'sequence': 'Deti sa hrajú na ihrisku.',
'score': 0.14731724560260773,
'token': 9081,
'token_str': ' hrajú'},
{'sequence': 'Deti sa zahrali na ihrisku.',
'score': 0.05016357824206352,
'token': 32553,
'token_str': ' zahrali'},
{'sequence': 'Deti sa stretli na ihrisku.',
'score': 0.041727423667907715,
'token': 5964,
'token_str': ' stretli'},
{'sequence': 'Deti sa učia na ihrisku.',
'score': 0.01886524073779583,
'token': 18099,
'token_str': ' učia'}]
在PyTorch中获取文本特征的示例:
from transformers import RobertaTokenizer, RobertaModel
tokenizer = RobertaTokenizer.from_pretrained('gerulata/slovakbert')
model = RobertaModel.from_pretrained('gerulata/slovakbert')
text = "待嵌入的文本。"
encoded_input = tokenizer(text, return_tensors='pt')
output = model(**encoded_input)
在TensorFlow中的示例:
from transformers import RobertaTokenizer, TFRobertaModel
tokenizer = RobertaTokenizer.from_pretrained('gerulata/slovakbert')
model = TFRobertaModel.from_pretrained('gerulata/slovakbert')
text = "待嵌入的文本。"
encoded_input = tokenizer(text, return_tensors='tf')
output = model(encoded_input)
或通过以下方式从模型中提取信息:
from transformers import pipeline
unmasker = pipeline('fill-mask', model='gerulata/slovakbert')
unmasker("Slovenské národne povstanie sa uskutočnilo v roku <mask>.")
[{'sequence': 'Slovenske narodne povstanie sa uskutočnilo v roku 1944.',
'score': 0.7383289933204651,
'token': 16621,
'token_str': ' 1944'},...]
训练数据
斯洛伐克BERT模型基于以下数据集预训练:
- 维基百科(326MB文本)
- 开放字幕(415MB文本)
- OSCAR(4.6GB文本)
- Gerulata网络爬取(12.7GB文本)
- Gerulata监控(214MB文本)
- blbec.online(4.5GB文本)
文本处理步骤包括:
- 用特殊标记("url"、"email")替换URL和电子邮件地址。
- 缩减连续的标点符号(如将“--”转为“-”)。
- 删除Markdown语法。
- 清除所有括号内的内容以减少标记和编程语言文本。
最终语料库分割为句子并去重,得到1.816亿条唯一句子,总计19.35GB文本。
预训练
模型在fairseq框架下训练,使用4块Nvidia A100 GPU,共30万步,批次大小512,序列长度512。优化器为Adam,学习率5e-4,β₁=0.9,β₂=0.98,ε=1e-6,权重衰减0.01,dropout率0.1,前1万步学习率预热,之后线性衰减。采用16位浮点精度。
关于我们
Gerulata Technologies是一家科技公司,致力于提供对抗虚假信息和敌对宣传的工具。
在Gerulata,我们专注于提供最先进的人工智能工具,赋能人类分析师并辅助其做出明智决策。
我们的工具支持在线活动的监控与分析,以及虚假信息和敌对宣传活动的检测与追踪。通过我们的产品,客户能更高效地实时识别并应对威胁。
BibTeX引用信息
如果您认为我们的资源或论文有用,请在论文中引用以下内容:
- https://arxiv.org/abs/2109.15254
@misc{pikuliak2021slovakbert,
title={SlovakBERT: Slovak Masked Language Model},
author={Matúš Pikuliak and Štefan Grivalský and Martin Konôpka and Miroslav Blšták and Martin Tamajka and Viktor Bachratý and Marián Šimko and Pavol Balážik and Michal Trnka and Filip Uhlárik},
year={2021},
eprint={2109.15254},
archivePrefix={arXiv},
primaryClass={cs.CL}
}