language: cs
license: cc-by-nc-sa-4.0
tags:
- RobeCzech
- 捷克语
- RoBERTa
- 查尔斯大学形式与应用语言学院
RobeCzech模型卡片
版本历史
-
版本1.1:2024年1月发布的1.1版本主要对分词器进行了如下调整:模型参数基本保持不变,但(a)通过复制合适的行扩展了嵌入层以适配更新后的分词器,(b)移除了池化层(原池化层仅为随机初始化)。
初始版本的分词器存在两个问题:(a)存在编号空缺(51959未对应任何词符),(b)将多个训练时未出现但BBPE分词器必需的词符映射到与[UNK]
词符相同的ID(3)。这有时会导致问题,如https://huggingface.co/ufal/robeczech-base/discussions/4所述。更多信息参见https://huggingface.co/ufal/robeczech-base/discussions/4#64b8f6a7f1f8e6ea5860b314。
在1.1版本中,分词器通过以下方式改进:(a)填补编号空缺,(b)为所有词符分配唯一ID。这需要扩大词汇表规模并通过复制[UNK]
词符的嵌入来扩展嵌入权重。未经微调时,1.1版本与1.0版本在任何输入上产生的嵌入完全相同(除1.1版本缺少池化层外),且1.0版本中映射到非[UNK]
ID的词符在1.1版本中会映射到相同ID。
但由于嵌入层(及语言模型头部权重和偏置)的尺寸变化,1.1版本的权重与1.0版本的配置不兼容,反之亦然。
-
版本1.0:2021年5月发布的初始版本(存在上述分词问题)。
如需加载1.0版本的预训练模型、配置或分词器,可使用:
from_pretrained("ufal/robeczech-base", revision="v1.0")
来创建AutoModel
、AutoConfig
或AutoTokenizer
实例。
模型详情
模型描述
RobeCzech是基于捷克语数据训练的单语RoBERTa语言表征模型。
- 开发机构:捷克查理大学形式与应用语言学院(UFAL)
- 发布平台:Hugging Face与LINDAT/CLARIAH-CZ
- 模型类型:填空预测
- 支持语言:捷克语(cs)
- 许可协议:cc-by-nc-sa-4.0
- 模型架构:RoBERTa
- 更多资源:
用途
直接用途
填空预测任务。
下游应用
形态标注与词形还原、依存句法分析、命名实体识别及语义解析。
偏见、风险与局限性
大量研究已探讨语言模型的偏见与公平性问题(参见Sheng等(2021)和Bender等(2021))。该模型生成的预测可能包含针对受保护群体、身份特征以及敏感社会职业群体的有害刻板印象。
使用建议
用户(包括直接使用者和下游开发者)应充分了解模型的潜在风险、偏见和局限性。需进一步研究以提供具体建议。
训练详情
训练数据
模型开发者在相关论文中说明:
训练数据包含以下公开文本:
- SYN v4:当代捷克书面语大型语料库,4,188M词符;
- Czes:捷克报刊文章合集,432M词符;
- web corpus.W2C捷克部分中长度≥400词符的文档(经MorphoDiTa分词),16M词符;
- 20201020捷克维基百科dump经WikiExtractor提取的纯文本(经MorphoDiTa分词),123M词符
所有语料均保留完整文档结构(尽管SYN v4进行了块随机化处理——以不超过100词的句子边界块为单位进行置换),总计4,917M词符。
训练过程
预处理
采用字节级BPE(BBPE)分词器进行子词切分,该分词器在全语料上训练并限制词汇量为52,000项。
速度、规模与时长
论文中指出:
批处理规模为8,192,每个批次包含连续采样的句子(可跨文档边界),每个样本最大长度512词符(FULL-SENTENCES设置)。使用Adam优化器(β1=0.9,β2=0.98)最小化掩码语言建模目标。
使用工具
基于Fairseq实现进行训练。
评估
测试数据与指标
测试数据
论文说明:
在五个NLP任务中评估RobeCzech,其中三个任务使用冻结的语境化词嵌入,两个任务采用微调策略:
- 形态分析与词形还原:冻结词嵌入
- 依存句法分析:冻结词嵌入
- 命名实体识别:冻结词嵌入
- 语义解析:微调
- 情感分析:微调
性能表现
模型 |
形态句法PDT3.5 (词性标注) (标记准确率) |
形态句法UD2.3 (细粒度词性) (标记准确率) |
命名实体CNEC1.1 (嵌套) (扁平) |
语义PTG (平均) (F1值) |
RobeCzech |
98.50 91.42 |
98.31 93.77 |
87.82 87.47 |
92.36 80.13 |
环境影响
- 硬件配置:8块QUADRO P5000 GPU
- 训练时长:2190小时(约3个月)
引用文献
@InProceedings{10.1007/978-3-030-83527-9_17,
作者={Straka, Milan与N{\'a}plava, Jakub及Strakov{\'a}, Jana与Samuel, David},
编辑={Ek{\v{s}}tein, Kamil与P{\'a}rtl, Franti{\v{s}}ek及Konop{\'i}k, Miloslav},
标题={RobeCzech:捷克单语RoBERTa语境化语言表征模型},
书名="文本、语音与对话",
年份="2021",
出版社="Springer International Publishing",
地址="Cham",
页码="197--209",
isbn="978-3-030-83527-9"
}
快速开始
以下代码展示模型使用方法。
点击展开
from transformers import AutoTokenizer, AutoModelForMaskedLM
tokenizer = AutoTokenizer.from_pretrained("ufal/robeczech-base")
model = AutoModelForMaskedLM.from_pretrained("ufal/robeczech-base")