gpt2-chinese-ancient开源模型 - 基于300万条数据，轻松生成文言文文本

首页

Gpt2 Chinese Ancient

由 uer 开发

专用于生成文言文文本的GPT2模型，基于300万条文言文数据预训练

大型语言模型中文#文言文生成 #古籍文本处理 #古汉语词表扩展

下载量 341

发布时间 : 3/2/2022

模型简介

该模型基于GPT2架构，专门针对文言文文本生成任务进行优化，能够生成符合古汉语语法和风格的文本

模型特点

专为文言文优化

针对古汉语特点进行专门训练，能生成符合文言文语法和风格的文本

大规模训练数据

使用300万条文言文文本进行预训练，覆盖广泛古籍内容

扩展词汇表

特别处理低频古汉语单字，提升生成质量

模型能力

文言文文本生成

古汉语文本续写

文言文风格模仿

使用案例

教育研究

古文自动生成

生成教学用文言文例句或段落

可生成符合语法规范的文言文文本

古籍研究辅助

辅助研究者进行古籍文本风格分析

文化创意

古风内容创作

生成古风小说、诗词等创意内容

🚀 中文古代GPT2模型

本模型用于生成古代中文文本，借助预训练技术，能够依据给定的文本内容生成符合古代中文语境和风格的语句。通过不同的预训练工具和丰富的训练数据，为古代中文文本生成提供了有力支持。

🚀 快速开始

你可以使用文本生成管道直接使用该模型：

>>> from transformers import BertTokenizer, GPT2LMHeadModel, TextGenerationPipeline
>>> tokenizer = BertTokenizer.from_pretrained("uer/gpt2-chinese-ancient")
>>> model = GPT2LMHeadModel.from_pretrained("uer/gpt2-chinese-ancient")
>>> text_generator = TextGenerationPipeline(model, tokenizer)   
>>> text_generator("当是时", max_length=100, do_sample=True)
    [{'generated_text': '[CLS]当是时 所 议 者 不 为 无 据 ， 况 亦 在 之 列 乎 ？ 然 则 今 日 之 事 ， 所 当 思 者 在 何 ？ 欲 求 国 是 于 天 下 ， 莫 在 于 得 人 。 臣 以 为 求 人 之 法 ， 不 在 多 用 官 一 途 。 诚 使 得 才 者 众 ， 人 才 者 优 ， 则 治 所 当 得 ， 而 不 事 于 官 者 ， 人 才 乃 其 常 也 。 所 当 讲 者'}]

✨ 主要特性

多工具预训练：该模型可以通过 UER-py 或 TencentPretrain 进行预训练。其中，UER-py 在这篇论文中被介绍；TencentPretrain 则在这篇论文中被引入，它继承了 UER-py，支持参数超过十亿的模型，并将其扩展为多模态预训练框架。
多途径下载：你可以从 UER-py 模型库页面、GPT2-Chinese Github 页面下载该模型，也可以通过 HuggingFace 从 gpt2-chinese-ancient 链接下载。

📦 安装指南

数据预处理

python3 preprocess.py --corpus_path corpora/ancient_chinese.txt \
                      --vocab_path models/google_zh_ancient_vocab.txt \
                      --dataset_path ancient_chinese_dataset.pt --processes_num 16 \
                      --seq_length 320 --data_processor lm

模型预训练

python3 pretrain.py --dataset_path ancient_chinese_dataset.pt \
                    --vocab_path models/google_zh_ancient_vocab.txt \
                    --config_path models/bert_base_config.json \
                    --output_model_path models/ancient_chinese_gpt2_model.bin \
                    --world_size 8 --gpu_ranks 0 1 2 3 4 5 6 7 \
                    --total_steps 500000 --save_checkpoint_steps 100000 --report_steps 10000 \
                    --learning_rate 5e-4 --batch_size 32

模型格式转换

python3 scripts/convert_gpt2_from_uer_to_huggingface.py --input_model_path models/ancient_chinese_gpt2_model.bin-500000 \
                                                        --output_model_path pytorch_model.bin \
                                                        --layers_num 12

📚 详细文档

训练数据

训练数据包含 300 万条古代中文文本，这些文本由 daizhigev20 收集。由于部分古代语料没有标点，我们使用了由北京师范大学 ICIP 实验室开发的古代中文标点系统。

训练过程

该模型在腾讯云上通过 UER-py 进行预训练。我们以 320 的序列长度进行了 500000 步的预训练，并使用扩展词汇表来处理未登录词。古代中文语料中出现次数大于或等于 100 的汉字被添加到词汇表中。

BibTeX 引用和引用信息

@article{radford2019language,
  title={Language Models are Unsupervised Multitask Learners},
  author={Radford, Alec and Wu, Jeff and Child, Rewon and Luan, David and Amodei, Dario and Sutskever, Ilya},
  year={2019}
}

@article{zhao2019uer,
  title={UER: An Open-Source Toolkit for Pre-training Models},
  author={Zhao, Zhe and Chen, Hui and Zhang, Jinbin and Zhao, Xin and Liu, Tao and Lu, Wei and Chen, Xi and Deng, Haotang and Ju, Qi and Du, Xiaoyong},
  journal={EMNLP-IJCNLP 2019},
  pages={241},
  year={2019}
}

@article{zhao2023tencentpretrain,
  title={TencentPretrain: A Scalable and Flexible Toolkit for Pre-training Models of Different Modalities},
  author={Zhao, Zhe and Li, Yudong and Hou, Cheng and Zhao, Jing and others},
  journal={ACL 2023},
  pages={217},
  year={2023}
}