Czert-B-base-cased开源语言模型 - 专为捷克语设计，NLP任务表现超多国语言模型

首页

Czert B Base Cased

由 UWB-AIR 开发

CZERT是专门针对捷克语训练的类似BERT的语言表示模型，在多项捷克语NLP任务上表现优于多语言BERT模型

大型语言模型

Transformers

其他#捷克语BERT #多任务微调 #形态标注

下载量 560

发布时间 : 3/2/2022

模型简介

CZERT是基于BERT架构的捷克语预训练语言模型，包含基础版(CZERT-B)和ALBERT版(CZERT-A)两个变体，在情感分析、语义相似度、命名实体识别等任务上表现出色

模型特点

捷克语优化

专门针对捷克语训练，相比多语言BERT在捷克语任务上表现更优

多任务支持

支持从词元级到文档级的多种NLP任务

性能优越

在多项捷克语NLP基准测试中超越mBERT和SlavicBERT等模型

模型能力

文本分类

语义相似度计算

命名实体识别

形态标注

语义角色标注

情感分析

使用案例

情感分析

社交媒体评论情感分类

分析Facebook或CSFD(捷克电影数据库)评论的情感倾向

在CSFD数据集上达到84.79% F1分数

语义理解

新闻文本相似度计算

评估捷克新闻社(CNA)文本的语义相似度

Pearson相关系数达到84.345

信息提取

命名实体识别

从文本中识别捷克语人名、地名等实体

在CNEC数据集上达到86.274% F1分数

🚀 CZERT

本仓库保存了论文 Czert – Czech BERT-like Model for Language Representation 中训练好的 Czert-B 模型。欲了解更多信息，请查阅该论文。

🚀 快速开始

本项目提供了多种预训练和微调后的 CZERT 模型，可用于不同的自然语言处理任务。你可以根据需求下载相应的模型进行使用。

✨ 主要特性

提供了预训练的 MLM & NSP 模型以及多个针对不同下游任务的微调模型。
在多个下游任务（如情感分类、语义文本相似度、多标签文档分类等）上进行了评估，并取得了不错的效果。

📦 可用模型

预训练模型

你可以下载 仅用于 MLM & NSP 的预训练模型： ~~CZERT-A-v1 CZERT-B-v1~~

经过额外实验，我们发现分词器配置导出有误。在 Czert-B-v1 中，分词器参数 "do_lower_case" 被错误地设置为 true；在 Czert-A-v1 中，参数 "strip_accents" 被错误地设置为 true。

这两个问题在 v2 版本中已得到修复： CZERT-A-v2 CZERT-B-v2

微调模型

你也可以从以下 微调模型 中进行选择：

任务	模型
情感分类 (Facebook 或 CSFD)	CZERT-A-sentiment-FB CZERT-B-sentiment-FB CZERT-A-sentiment-CSFD CZERT-B-sentiment-CSFD
语义文本相似度 (捷克通讯社)	CZERT-A-sts-CNA CZERT-B-sts-CNA
命名实体识别	CZERT-A-ner-CNEC CZERT-B-ner-CNEC PAV-ner-CNEC CZERT-A-ner-BSNLP CZERT-B-ner-BSNLP PAV-ner-BSNLP
形态标注	CZERT-A-morphtag-126k CZERT-B-morphtag-126k
语义角色标注	CZERT-A-srl CZERT-B-srl

💻 使用示例

句子级任务

我们在两个句子级任务上对模型进行了评估：

情感分类
语义文本相似度

文档级任务

我们在一个文档级任务上对模型进行了评估：

多标签文档分类

词元级任务

我们在三个词元级任务上对模型进行了评估：

命名实体识别
形态标注
语义角色标注

📚 详细文档

下游任务微调结果

情感分类

数据集	mBERT	SlavicBERT	ALBERT-r	Czert-A	Czert-B
FB	71.72 ± 0.91	73.87 ± 0.50	59.50 ± 0.47	72.47 ± 0.72	76.55 ± 0.14
CSFD	82.80 ± 0.14	82.51 ± 0.14	75.40 ± 0.18	79.58 ± 0.46	84.79 ± 0.26

情感分类任务的平均 F1 结果。欲了解更多信息，请查阅论文。

语义文本相似度

数据集	mBERT	Pavlov	Albert-random	Czert-A	Czert-B
STA-CNA	83.335 ± 0.063	83.593 ± 0.050	43.184 ± 0.125	82.942 ± 0.106	84.345 ± 0.028
STS-SVOB-img	79.367 ± 0.486	79.900 ± 0.810	15.739 ± 2.992	79.444 ± 0.338	83.744 ± 0.395
STS-SVOB-hl	78.833 ± 0.296	76.996 ± 0.305	33.949 ± 1.807	75.089 ± 0.806	79.827 ± 0.469

使用预训练的 CZERT-A、CZERT-B、mBERT、Pavlov 和随机初始化的 Albert 在语义文本相似度任务上实现的皮尔逊相关系数比较。欲了解更多信息，请查阅论文。

多标签文档分类

指标	mBERT	SlavicBERT	ALBERT-r	Czert-A	Czert-B
AUROC	97.62 ± 0.08	97.80 ± 0.06	94.35 ± 0.13	97.49 ± 0.07	98.00 ± 0.04
F1	83.04 ± 0.16	84.08 ± 0.14	72.44 ± 0.22	82.27 ± 0.17	85.06 ± 0.11

使用预训练的 CZERT-A、CZERT-B、mBERT、Pavlov 和随机初始化的 Albert 在多标签文档分类任务上实现的 F1 和 AUROC 分数比较。欲了解更多信息，请查阅论文。

形态标注

数据集	mBERT	Pavlov	Albert-random	Czert-A	Czert-B
Universal Dependencies	99.176 ± 0.006	99.211 ± 0.008	96.590 ± 0.096	98.713 ± 0.008	99.300 ± 0.009

使用预训练的 CZERT-A、CZERT-B、mBERT、Pavlov 和随机初始化的 Albert 在形态标注任务上实现的 F1 分数比较。欲了解更多信息，请查阅论文。

语义角色标注

类型	mBERT	Pavlov	Albert-random	Czert-A	Czert-B	依赖关系	黄金依赖关系
跨度	78.547 ± 0.110	79.333 ± 0.080	51.365 ± 0.423	72.254 ± 0.172	81.861 ± 0.102	-	-
语法	90.226 ± 0.224	90.492 ± 0.040	80.747 ± 0.131	80.319 ± 0.054	91.462 ± 0.062	85.19	89.52

SRL 结果 – 依赖关系列使用 CoNLL 2009 评估脚本的带标签 F1 进行评估，其他列使用与命名实体识别评估相同的跨度 F1 分数进行评估。欲了解更多信息，请查阅论文。

命名实体识别

数据集	mBERT	Pavlov	Albert-random	Czert-A	Czert-B
CNEC	86.225 ± 0.208	86.565 ± 0.198	34.635 ± 0.343	72.945 ± 0.227	86.274 ± 0.116
BSNLP 2019	84.006 ± 1.248	86.699 ± 0.370	19.773 ± 0.938	48.859 ± 0.605	86.729 ± 0.344

使用预训练的 CZERT-A、CZERT-B、mBERT、Pavlov 和随机初始化的 Albert 在命名实体识别任务上实现的 F1 分数比较。欲了解更多信息，请查阅论文。

📄 许可证

本作品采用知识共享署名 - 非商业性使用 - 相同方式共享 4.0 国际许可协议进行许可。

🔗 引用方式

目前，请引用 Arxiv 论文：

@article{sido2021czert,
      title={Czert -- Czech BERT-like Model for Language Representation}, 
      author={Jakub Sido and Ondřej Pražák and Pavel Přibáň and Jan Pašek and Michal Seják and Miloslav Konopík},
      year={2021},
      eprint={2103.13031},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      journal={arXiv preprint arXiv:2103.13031},
}