R

Robeczech Base

由 ufal 开发
RobeCzech是基于捷克语数据训练的单语RoBERTa语言表征模型,由捷克查理大学形式与应用语言学院开发。
下载量 2,911
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

该模型主要用于填空预测任务,支持捷克语文本处理,适用于多种自然语言处理任务。

模型特点

改进的分词器
版本1.1对分词器进行了重要改进,填补了编号空缺并为所有词符分配了唯一ID,提升了模型的稳定性和兼容性。
捷克语优化
专门针对捷克语数据进行训练,优化了语言表征能力,适用于捷克语相关的自然语言处理任务。
文档结构保留
训练时保留了完整的文档结构,有助于模型理解上下文信息。

模型能力

填空预测
形态标注
词形还原
依存句法分析
命名实体识别
语义解析

使用案例

自然语言处理
形态分析与词形还原
使用冻结的词嵌入进行捷克语形态分析和词形还原。
标记准确率达到98.50(词性标注)和91.42(细粒度词性)
命名实体识别
识别捷克语文本中的命名实体。
F1值达到87.82(嵌套)和87.47(扁平)
语义解析
对捷克语文本进行语义解析。
平均F1值达到92.36