swe-gpt-wiki开源模型 - 免费让你轻松获取瑞典语维基百科风格内容表达

首页

Swe Gpt Wiki

由 flax-community 开发

这是一个基于Flax CLM流程训练的瑞典语GPT2风格模型，训练数据来自wiki40b数据集的瑞典语部分。

大型语言模型其他#瑞典语生成 #维基百科训练 #多轮对话

下载量 24

发布时间 : 3/2/2022

模型简介

该模型是一个瑞典语GPT2风格的语言模型，主要用于瑞典语文本生成任务。

模型特点

基于维基百科数据训练

使用wiki40b数据集的瑞典语部分进行训练，具有丰富的知识覆盖面

Flax/Jax框架训练

使用Flax Jax在TPU上进行高效训练

瑞典语优化

专门针对瑞典语进行优化和训练

模型能力

瑞典语文本生成

语言建模

文本续写

使用案例

内容创作

瑞典语文章生成

生成瑞典语维基百科风格的文章

教育

瑞典语学习辅助

生成瑞典语学习材料和示例

🚀 GPT2-瑞典语-维基百科

这是一个瑞典语的GPT2风格模型，使用Flax CLM管道在wiki40b数据集的瑞典语部分上进行训练。

🚀 快速开始

本模型是在Huggingface Flax/Jax挑战赛期间，使用Flax Jax在TPU上训练的一系列模型的一部分。

✨ 主要特性

模型系列链接

GPT模型
- 瑞典语GPT：https://huggingface.co/birgermoell/swedish - gpt/
- 瑞典语GPT维基：https://huggingface.co/flax - community/swe - gpt - wiki
- 北欧GPT维基：https://huggingface.co/flax - community/nordic - gpt - wiki
- 丹麦语GPT维基：https://huggingface.co/flax - community/dansk - gpt - wiki
- 挪威语GPT维基：https://huggingface.co/flax - community/norsk - gpt - wiki
Roberta模型
- 北欧Roberta维基：https://huggingface.co/flax - community/nordic - roberta - wiki
- 瑞典语Roberta维基Oscar：https://huggingface.co/flax - community/swe - roberta - wiki - oscar
- Roberta瑞典语斯堪的纳维亚版：https://huggingface.co/birgermoell/roberta - swedish - scandi
- Roberta瑞典语版：https://huggingface.co/birgermoell/roberta - swedish
瑞典语T5模型
- 瑞典语T5基础模型：https://huggingface.co/birgermoell/t5 - base - swedish

📦 安装指南

使用以下脚本对数据进行清洗和预处理。要确保安装beam_runner的依赖项，以使数据集正常工作。

from datasets import load_dataset
def load_and_clean_wiki():
    dataset = load_dataset('wiki40b', 'sv', beam_runner='DirectRunner', split="train")
    #dataset = load_dataset('wiki40b', 'sv', beam_runner='DirectRunner')
    dataset = dataset.remove_columns(['wikidata_id', 'version_id'])
    filtered_dataset = dataset.map(filter_wikipedia)
    # filtered_dataset[:3]
    # print(filtered_dataset[:3])
    return filtered_dataset

def filter_wikipedia(batch):
    batch["text"] = " ".join(batch["text"].split("\
_START_SECTION_\
"))
    batch["text"] = " ".join(batch["text"].split("\
_START_ARTICLE_\
"))
    batch["text"] = " ".join(batch["text"].split("\
_START_ARTICLE_\
"))
    batch["text"] = " ".join(batch["text"].split("\
_START_PARAGRAPH_\
"))
    batch["text"] = " ".join(batch["text"].split("_NEWLINE_"))
    batch["text"] = " ".join(batch["text"].split("\xa0"))
    return batch

💻 使用示例

基础用法

以下是用于训练模型的训练脚本：

./run_clm_flax.py     --output_dir="${MODEL_DIR}"     --model_type="gpt2"     --config_name="${MODEL_DIR}"     --tokenizer_name="${MODEL_DIR}"     --dataset_name="wiki40b"     --dataset_config_name="sv"     --do_train --do_eval     --block_size="512"     --per_device_train_batch_size="64"     --per_device_eval_batch_size="64"     --learning_rate="5e-3" --warmup_steps="1000"     --adam_beta1="0.9" --adam_beta2="0.98" --weight_decay="0.01"     --overwrite_output_dir     --num_train_epochs="20"     --logging_steps="500"     --save_steps="1000"     --eval_steps="2500"     --push_to_hub