E

Electra Base Gc4 64k 500000 Cased Generator

由 stefan-it 开发
基于德语海量清洁版Common Crawl语料库(GC4)训练的超大规模德语语言模型,总规模约844GB,可能存在偏见。
下载量 16
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

该模型是一个针对德语训练的大型语言模型,主要用于研究用途,特别是偏见识别与预防的研究。

模型特点

大规模德语语料训练
基于844GB的德语海量清洁版Common Crawl语料库(GC4)训练。
研究导向
主要用于推动德语大规模预训练语言模型的研究,特别是偏见识别与预防的研究。
存在偏见
由于训练数据来自互联网爬取文本,模型可能编码与性别、种族、民族及残障状态相关的刻板印象关联。

模型能力

德语文本生成
德语文本理解

使用案例

研究
偏见识别研究
用于识别和预防语言模型中的偏见问题。
德语语言模型研究
推动德语大规模预训练语言模型的研究。