标签:
CZERT
本仓库保存了论文《Czert – 捷克语类似BERT的语言表示模型》Czert – Czech BERT-like Model for Language Representation中训练好的Czert-B模型。更多信息请参阅论文。
可用模型
您可以下载仅MLM & NSP预训练模型:
CZERT-A-v1
CZERT-B-v1
经过额外实验后,我们发现分词器配置导出有误。在CZERT-B-v1中,分词器参数"do_lower_case"被错误设置为true;在CZERT-A-v1中,"strip_accents"参数被错误设置为true。
这两个问题已在v2版本修复:
CZERT-A-v2
CZERT-B-v2
或选择以下微调模型:
如何使用CZERT?
句子级任务
我们在两个句子级任务上评估模型:
文档级任务
我们在一个文档级任务上评估模型:
词元级任务
我们在三个词元级任务上评估模型:
下游任务微调结果
情感分类
|
mBERT |
SlavicBERT |
ALBERT-r |
Czert-A |
Czert-B |
FB |
71.72±0.91 |
73.87±0.50 |
59.50±0.47 |
72.47±0.72 |
76.55±0.14 |
CSFD |
82.80±0.14 |
82.51±0.14 |
75.40±0.18 |
79.58±0.46 |
84.79±0.26 |
情感分类任务的平均F1分数。更多信息见论文。
语义文本相似度
|
mBERT |
Pavlov |
Albert-random |
Czert-A |
Czert-B |
STA-CNA |
83.335±0.063 |
83.593±0.050 |
43.184±0.125 |
82.942±0.106 |
84.345±0.028 |
STS-SVOB-img |
79.367±0.486 |
79.900±0.810 |
15.739±2.992 |
79.444±0.338 |
83.744±0.395 |
STS-SVOB-hl |
78.833±0.296 |
76.996±0.305 |
33.949±1.807 |
75.089±0.806 |
79.827±0.469 |
预训练模型在语义文本相似度任务上的Pearson相关系数对比。更多信息见论文。
多标签文档分类
|
mBERT |
SlavicBERT |
ALBERT-r |
Czert-A |
Czert-B |
AUROC |
97.62±0.08 |
97.80±0.06 |
94.35±0.13 |
97.49±0.07 |
98.00±0.04 |
F1 |
83.04±0.16 |
84.08±0.14 |
72.44±0.22 |
82.27±0.17 |
85.06±0.11 |
多标签文档分类任务的F1和AUROC分数对比。更多信息见论文。
形态标注
|
mBERT |
Pavlov |
Albert-random |
Czert-A |
Czert-B |
通用依存 |
99.176±0.006 |
99.211±0.008 |
96.590±0.096 |
98.713±0.008 |
99.300±0.009 |
形态标注任务的F1分数对比。更多信息见论文。
语义角色标注
|
mBERT |
Pavlov |
Albert-random |
Czert-A |
Czert-B |
基于依存 |
黄金依存 |
跨度 |
78.547±0.110 |
79.333±0.080 |
51.365±0.423 |
72.254±0.172 |
81.861±0.102 |
- |
- |
句法 |
90.226±0.224 |
90.492±0.040 |
80.747±0.131 |
80.319±0.054 |
91.462±0.062 |
85.19 |
89.52 |
语义角色标注结果——dep列使用CoNLL 2009评估脚本计算标记F1,其他列使用与NER评估相同的跨度F1分数。更多信息见论文。
命名实体识别
|
mBERT |
Pavlov |
Albert-random |
Czert-A |
Czert-B |
CNEC |
86.225±0.208 |
86.565±0.198 |
34.635±0.343 |
72.945±0.227 |
86.274±0.116 |
BSNLP 2019 |
84.006±1.248 |
86.699±0.370 |
19.773±0.938 |
48.859±0.605 |
86.729±0.344 |
命名实体识别任务的F1分数对比。更多信息见论文。
许可
本作品采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议授权。http://creativecommons.org/licenses/by-nc-sa/4.0/
如何引用CZERT?
目前请引用Arxiv论文:
@article{sido2021czert,
title={Czert -- Czech BERT-like Model for Language Representation},
author={Jakub Sido and Ondřej Pražák and Pavel Přibáň and Jan Pašek and Michal Seják and Miloslav Konopík},
year={2021},
eprint={2103.13031},
archivePrefix={arXiv},
primaryClass={cs.CL},
journal={arXiv preprint arXiv:2103.13031},
}