语言:
- 芬兰语
许可证: apache-2.0
标签:
- 芬兰语
- convbert
数据集:
- Finnish-NLP/mc4_fi_cleaned
- 维基百科
小部件示例:
- 文本: "Moikka olen [MASK] kielimalli."
芬兰语ConvBERT模型
基于替换令牌检测(RTD)目标预训练的芬兰语ConvBERT模型。ConvBERT由此论文提出,并首次发布于此页面。
注意:此模型为ConvBERT生成器模型,专用于填充掩码任务。用于文本分类等下游任务微调的ConvBERT判别器模型发布于Finnish-NLP/convbert-base-finnish。
模型描述
芬兰语ConvBERT是通过自监督方式在大量芬兰语文本上预训练的transformers模型。这意味着它仅对原始文本进行预训练,无需人工标注(因此可利用大量公开数据),通过自动过程从文本生成输入和标签。
具体而言,它采用替换令牌检测(RTD)目标进行预训练。不同于BERT的掩码语言建模(MLM)目标对输入进行掩码处理,该方法通过用从小型生成器模型采样的合理替代词替换部分令牌来破坏输入。随后,不是训练预测被破坏令牌原始身份的模型,而是训练一个判别模型来预测被破坏输入中的每个令牌是否被生成器模型的样本替换。因此,该训练方法类似于生成对抗网络(GAN)。
通过这种方式,模型学习到芬兰语的内在表示,可用于提取对下游任务有用的特征:例如,若有一个标注句子的数据集,可使用ConvBERT模型生成的特征作为输入训练标准分类器。
与BERT和ELECTRA模型相比,ConvBERT采用基于跨度的动态卷积替代部分全局自注意力头以建模局部输入序列依赖。这些卷积头与其余自注意力头共同构成新的混合注意力块,在全局和局部上下文学习中更高效。
预期用途与限制
此生成器模型主要用于填充掩码任务。其他任务请使用Finnish-NLP/convbert-base-finnish模型。
使用方法
以下为使用此模型直接通过pipeline进行填充掩码任务的示例:
>>> from transformers import pipeline
>>> unmasker = pipeline('fill-mask', model='Finnish-NLP/convbert-base-generator-finnish')
>>> unmasker("Moikka olen [MASK] kielimalli.")
[{'score': 0.08341152966022491,
'token': 4619,
'token_str': 'suomalainen',
'sequence': 'Moikka olen suomalainen kielimalli.'},
{'score': 0.02831297740340233,
'token': 25583,
'token_str': 'ranskalainen',
'sequence': 'Moikka olen ranskalainen kielimalli.'},
{'score': 0.027857203036546707,
'token': 37714,
'token_str': 'kiinalainen',
'sequence': 'Moikka olen kiinalainen kielimalli.'},
{'score': 0.027701903134584427,
'token': 21614,
'token_str': 'ruotsalainen',
'sequence': 'Moikka olen ruotsalainen kielimalli.'},
{'score': 0.026388710364699364,
'token': 591,
'token_str': 'hyvä',
'sequence': 'Moikka olen hyvä kielimalli.'}]
限制与偏差
此模型的训练数据包含大量来自互联网的未过滤内容,远非中立。因此,模型可能产生带有偏见的预测。这种偏见也会影响该模型的所有微调版本。
训练数据
该芬兰语ConvBERT模型在五个数据集的组合上预训练:
原始数据集经过清洗以过滤低质量和非芬兰语样本。这些清理后的数据集总计约84GB文本。
训练流程
预处理
文本使用WordPiece分词,词汇表大小为50265。输入为512个连续令牌的序列。文本未转为小写,因此该模型区分大小写:例如finnish和Finnish会被视为不同。
预训练
模型在Google TPU Research Cloud赞助的TPUv3-8 VM上训练了100万步。优化器采用AdamW,学习率1e-4,前20000步进行学习率预热,之后线性衰减。
训练代码来自官方ConvBERT仓库,部分指导参考此处。
评估结果
评估结果请参见Finnish-NLP/convbert-base-finnish模型仓库。
致谢
此项目得益于Google通过TPU Research Cloud慷慨提供的计算资源。
团队成员
欢迎随时联系我们获取更多详情 🤗