robeczech-base开源语言模型 - 免费用于捷克语智能文本处理与分析

首页

Robeczech Base

由 ufal 开发

RobeCzech是基于捷克语数据训练的单语RoBERTa语言表征模型，由捷克查理大学形式与应用语言学院开发。

大型语言模型

Transformers

其他#捷克语RoBERTa #填空预测 #形态句法分析

下载量 2,911

发布时间 : 3/2/2022

模型简介

该模型主要用于填空预测任务，支持捷克语文本处理，适用于多种自然语言处理任务。

模型特点

改进的分词器

版本1.1对分词器进行了重要改进，填补了编号空缺并为所有词符分配了唯一ID，提升了模型的稳定性和兼容性。

捷克语优化

专门针对捷克语数据进行训练，优化了语言表征能力，适用于捷克语相关的自然语言处理任务。

文档结构保留

训练时保留了完整的文档结构，有助于模型理解上下文信息。

模型能力

填空预测

形态标注

词形还原

依存句法分析

命名实体识别

语义解析

使用案例

自然语言处理

形态分析与词形还原

使用冻结的词嵌入进行捷克语形态分析和词形还原。

标记准确率达到98.50（词性标注）和91.42（细粒度词性）

命名实体识别

识别捷克语文本中的命名实体。

F1值达到87.82（嵌套）和87.47（扁平）

语义解析

对捷克语文本进行语义解析。

平均F1值达到92.36

🚀 RobeCzech模型卡片

RobeCzech是一个基于捷克语数据训练的单语RoBERTa语言表示模型，可用于填空任务以及形态标注、词性还原、依存句法分析等下游任务。

🚀 快速开始

使用以下代码开始使用该模型：

点击展开

from transformers import AutoTokenizer, AutoModelForMaskedLM

tokenizer = AutoTokenizer.from_pretrained("ufal/robeczech-base")

model = AutoModelForMaskedLM.from_pretrained("ufal/robeczech-base")

✨ 主要特性

单语模型：专门针对捷克语进行训练，能更好地处理捷克语相关任务。
多任务支持：可直接用于填空任务，也适用于形态标注、词性还原、依存句法分析、命名实体识别和语义分析等下游任务。

📦 安装指南

暂未提供相关安装步骤。

💻 使用示例

基础用法

from transformers import AutoTokenizer, AutoModelForMaskedLM

tokenizer = AutoTokenizer.from_pretrained("ufal/robeczech-base")
model = AutoModelForMaskedLM.from_pretrained("ufal/robeczech-base")

📚 详细文档

版本历史

版本1.1：于2024年1月发布，对分词器进行了如下修改；模型参数基本保持不变，但（a）通过复制合适的行来扩大嵌入层，以对应更新后的分词器，（b）去掉了池化层（最初它只是随机初始化的）。初始版本的分词器（a）存在一个空洞（ID 51959不对应任何标记），（b）将几个标记（在训练期间未出现但BBPE分词器需要）映射到与[UNK]标记相同的ID（3）。这有时会导致问题，如此处所示。更多信息请见这里。在版本1.1中，分词器进行了如下修改：（a）移除了空洞，（b）将所有标记映射到唯一的ID。这也需要增加词汇表大小和嵌入层权重（通过复制[UNK]标记的嵌入）。在不进行微调的情况下，版本1.1和版本1.0在任何输入上给出的嵌入完全相同（除了版本1.1中缺少池化层），并且版本1.0中映射到与[UNK]标记不同ID的标记在版本1.1中映射到相同的ID。然而，嵌入层（以及语言模型头部的权重和偏差）的大小不同，因此版本1.1的权重与版本1.0的配置不兼容，反之亦然。
版本1.0：于2021年5月发布的初始版本（存在上述分词问题）。如果您想加载版本1.0的预训练模型、配置或分词器，可以使用以下代码创建AutoModel、AutoConfig或AutoTokenizer：

from_pretrained("ufal/robeczech-base", revision="v1.0")

模型详情

模型描述：RobeCzech是一个基于捷克语数据训练的单语RoBERTa语言表示模型。
- 开发者：布拉格查理大学形式与应用语言研究所（UFAL）
- 共享方：Hugging Face和LINDAT/CLARIAH - CZ
- 模型类型：填空模型
- 语言：捷克语（cs）
- 许可证：cc - by - nc - sa - 4.0
- 模型架构：RoBERTa
- 更多信息资源：
  - RobeCzech: Czech RoBERTa, a Monolingual Contextualized Language Representation Model
  - arXiv预印本也可获取

使用场景

直接使用

填空任务。

下游使用

形态标注和词性还原、依存句法分析、命名实体识别和语义分析。

偏差、风险和局限性

大量研究已经探讨了语言模型的偏差和公平性问题（例如，见Sheng等人（2021）和Bender等人（2021））。模型生成的预测可能包含针对受保护类别、身份特征以及敏感、社会和职业群体的令人不安和有害的刻板印象。

建议

用户（直接用户和下游用户）应该了解模型的风险、偏差和局限性。需要更多信息以提供进一步的建议。

训练详情

训练数据

模型创建者在相关论文中指出：

我们在以下公开可用文本的集合上训练了RobeCzech：

SYN v4，一个大型当代书面捷克语语料库，包含41.88亿个标记；

Czes，捷克报纸和杂志文章的集合，包含4.32亿个标记；

从网络语料库W2C的捷克部分中提取的至少包含400个标记的文档，使用MorphoDiTa进行分词，包含1600万个标记；

使用WikiEx - tractor从2020年10月20日的捷克维基百科转储中提取的纯文本，使用MorphoDiTa进行分词，包含1.23亿个标记。所有这些语料库都包含完整的文档，即使SYN v4是块打乱的（在文档中，最多包含100个单词且尊重句子边界的块被打乱），总共包含49.17亿个标记。

训练过程

预处理

文本使用字节级BPE（BBPE）分词器分词为子词，该分词器在整个语料库上进行训练，我们将其词汇表大小限制为52000个条目。

速度、大小、时间

模型创建者在相关论文中指出：

训练批次大小为8192，每个训练批次由连续采样的句子组成，即使跨越文档边界，使得每个样本的总长度最多为512个标记（全句子设置）。我们使用Adam优化器，β1 = 0.9，β2 = 0.98，以最小化掩码语言建模目标。

所用软件

使用Fairseq实现进行训练。

评估

测试数据、因素和指标

测试数据

模型创建者在相关论文中指出：

我们在五个自然语言处理任务中评估RobeCzech，其中三个利用冻结的上下文词嵌入，两个采用微调方法：

形态分析和词性还原：冻结的上下文词嵌入

依存句法分析：冻结的上下文词嵌入

命名实体识别：冻结的上下文词嵌入

语义分析：微调

情感分析：微调

结果

模型	形态句法PDT3.5 (POS) (LAS)	形态句法UD2.3 (XPOS) (LAS)	命名实体识别CNEC1.1 (嵌套) (扁平)	语义分析PTG (平均) (F1)
RobeCzech	98.50 91.42	98.31 93.77	87.82 87.47	92.36 80.13

环境影响

硬件类型：8块QUADRO P5000 GPU
使用时长：2190小时（约3个月）

引用

@InProceedings{10.1007/978-3-030-83527-9_17,
  author={Straka, Milan and N{\'a}plava, Jakub and Strakov{\'a}, Jana and Samuel, David},
  editor={Ek{\v{s}}tein, Kamil and P{\'a}rtl, Franti{\v{s}}ek and Konop{\'i}k, Miloslav},
  title={{RobeCzech: Czech RoBERTa, a Monolingual Contextualized Language Representation Model}},
  booktitle="Text, Speech, and Dialogue",
  year="2021",
  publisher="Springer International Publishing",
  address="Cham",
  pages="197--209",
  isbn="978-3-030-83527-9"
}