gpt2-large-dutch开源语言模型 - 专注荷兰语，支持多种荷兰语内容处理

首页

Gpt2 Large Dutch

由 yhavinga 开发

这是一个从头开始训练的GPT2大型模型（7.62亿参数），专注于荷兰语，在纯净荷兰语mC4上的困惑度为15.1。

大型语言模型其他#荷兰语生成 #大参数量 #长文本生成

下载量 428

发布时间 : 3/2/2022

模型简介

基于纯净荷兰语mC4预训练的GPT2-Large模型，专注于荷兰语文本生成任务。

模型特点

荷兰语专用

专门针对荷兰语进行训练和优化，提供高质量的荷兰语文本生成能力。

大模型容量

拥有7.62亿参数的大型模型，能够处理复杂的语言模式和上下文关系。

纯净训练数据

使用经过严格过滤的纯净荷兰语mC4数据集进行训练，确保生成内容质量。

低困惑度

在纯净荷兰语mC4上的困惑度为15.1，表现优异。

模型能力

荷兰语文本生成

长文本连贯性保持

上下文理解

使用案例

内容创作

文章续写

根据给定的开头段落，自动生成连贯的文章内容。

示例输出显示模型能生成具有逻辑连贯性和主题相关性的长文本。

教育

语言学习辅助

为荷兰语学习者提供自然语言示例和练习材料。

🚀 基于清理后的荷兰语mC4预训练的GPT2-Large 🇳🇱

这是一个基于荷兰语从头开始训练的GPT2大模型（7.62亿参数），在清理后的荷兰语mC4数据集上的困惑度为15.1。该模型可以有效处理荷兰语文本生成任务，为荷兰语相关的自然语言处理应用提供强大支持。

🚀 快速开始

你可以直接使用此GPT2模型搭配文本生成管道。

基础用法

MODEL_DIR='yhavinga/gpt2-large-dutch'
from transformers import pipeline, GPT2Tokenizer, GPT2LMHeadModel
tokenizer = GPT2Tokenizer.from_pretrained(MODEL_DIR)
model = GPT2LMHeadModel.from_pretrained(MODEL_DIR)
generator = pipeline('text-generation', model, tokenizer=tokenizer)

generated_text = generator('Het eiland West-', max_length=100, do_sample=True, top_k=40, top_p=0.95, repetition_penalty=2.0)

示例输出

"Het eiland West-" - "Terschelling wordt sinds jaar en dag bewoond door de mens. De mensen die in het huidige Terherne wonen doen er alles aan om hun dorp te behouden voor deze diersoort, namelijk; een natuurreservaat dat vooral bestaat uit hoge duinen met lage begroeing waar planten van vroeger worden afgewisseld (zoals wilde hyacinten)en waarop grassen groeien waarvan sommige soorten zeldzame vormen hebben ontwikkeld: duinlelie of blauwe bosbes zijn bijvoorbeeld bekend vanwege onder andere kleurmole"

✨ 主要特性

分词器

使用Huggingface Transformers Flax示例中的脚本，基于清理后的荷兰语mC4数据集为荷兰语从头开始训练的BPE分词器。

数据集

该模型在清理后的荷兰语mC4 的 full 配置（330亿个标记）上进行训练，清理规则如下：

移除包含荷兰语和英语不文明词汇列表中词汇的文档。
移除单词数少于3个的句子。
移除包含超过1000个字符的单词的句子。
移除句子数少于5个的文档。
移除包含 "javascript"、"lorum ipsum"、"terms of use"、"privacy policy"、"cookie policy"、"uses cookies"、"use of cookies"、"use cookies"、"elementen ontbreken"、"deze printversie" 的文档。

模型对比

TL;DR: yhavinga/gpt2-medium-dutch 是最佳模型。

步骤列中带有 a/b 的模型已训练到总共 b 步中的第 a 步。

属性	详情
模型类型	包括gpt neo和gpt2类型
训练数据	清理后的荷兰语mC4的 `full` 配置（33B tokens）

模型链接	模型类型	参数数量	训练序列长度	困惑度	损失	批量大小	训练轮数	训练步数	优化器	学习率	训练时长	配置
yhavinga/gpt-neo-125M-dutch	gpt neo	1.25亿	512	20.9	3.04	128	1	190000/558608	adam	2.4e-3	1天12小时	full
yhavinga/gpt2-medium-dutch	gpt2	3.45亿	512	15.1	2.71	128	1	320000/520502	adam	8e-4	7天2小时	full
yhavinga/gpt2-large-dutch	gpt2	7.62亿	512	15.1	2.72	32	1	1100000/2082009	adafactor	3.3e-5	8天15小时	large
yhavinga/gpt-neo-1.3B-dutch	gpt neo	13亿	512	16.0	2.77	16	1	960000/3049896	adafactor	5e-4	7天11小时	full