G

Gottbert Base Last

由 TUM 开发
GottBERT是首个专为德语设计的RoBERTa模型,基于OSCAR数据集的德语部分进行预训练,提供基础版和大模型版两个版本。
下载量 6,842
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

GottBERT是一个纯德语语言模型,旨在为德语自然语言处理任务(如命名实体识别、文本分类和自然语言推理)提供增强性能。

模型特点

纯德语优化
专为德语设计,基于德语OSCAR数据集预训练,提供更准确的德语语言理解。
双版本选择
提供基础版(1.25亿参数)和大模型版(3.55亿参数),满足不同计算需求。
高效过滤
通过停用词比例、标点比例和大写词比例等指标过滤噪声数据,提升模型质量。
高性能分词器
采用GPT-2字节对编码(BPE)分词器,词表大小为52k子词单元。

模型能力

德语文本理解
命名实体识别
文本分类
自然语言推理

使用案例

自然语言处理
命名实体识别
识别德语文本中的命名实体(如人名、地名、组织名)。
在CoNLL 2003数据集上F1分数达86.14(基础版)和86.78(大模型版)。
文本分类
对德语文本进行分类(如新闻分类、情感分析)。
在GermEval 2018(粗粒度)上F1分数达78.65(基础版)和79.40(大模型版)。
自然语言推理
判断德语文本对之间的逻辑关系(如蕴含、矛盾、中立)。
在XNLI德语子集上准确率达80.82(基础版)和82.46(大模型版)。