开源GPT2-Vietnamese模型 - 免费部署助力越南语文本生成

首页

Gpt2 Vietnamese

由 NlpHUST 开发

基于越南语预训练的GPT-2模型，采用因果语言建模目标，适用于越南语文本生成任务。

大型语言模型其他#越南语文本生成 #CLM语言建模 #Transformer架构

下载量 1,635

发布时间 : 5/23/2022

模型简介

这是一个专门针对越南语优化的GPT-2语言模型，能够生成连贯的越南语文本。模型在越南Oscar数据集上进行了预训练，适用于各种越南语自然语言处理任务。

模型特点

越南语优化

专门针对越南语进行预训练和优化，生成文本质量更高

大规模训练

在32GB的越南Oscar数据集上训练，学习到丰富的语言模式

多功能生成

支持多种文本生成策略，包括采样、束搜索等

模型能力

越南语文本生成

语言建模

文本补全

使用案例

内容创作

文章续写

根据给定开头自动生成完整的文章内容

生成连贯、符合语境的越南语文本

商业应用

报告生成

自动生成商业报告或市场分析内容

生成结构化的专业文本

🚀 GPT-2

GPT-2是一个基于越南语预训练的GPT模型，采用因果语言建模（CLM）目标进行训练。该模型在这篇论文中被提出，并首次在此页面发布。它能够为越南语相关的文本生成任务提供强大的支持，助力自然语言处理领域在越南语场景下的应用。

🚀 快速开始

本部分将介绍如何快速使用该模型进行文本生成。

💻 使用示例

基础用法

以下是使用Python调用该模型进行文本生成的示例代码：

import torch
from transformers import GPT2Tokenizer, GPT2LMHeadModel

tokenizer = GPT2Tokenizer.from_pretrained('NlpHUST/gpt2-vietnamese')
model = GPT2LMHeadModel.from_pretrained('NlpHUST/gpt2-vietnamese')

text = "Việt Nam là quốc gia có"
input_ids = tokenizer.encode(text, return_tensors='pt')
max_length = 100

sample_outputs = model.generate(input_ids,pad_token_id=tokenizer.eos_token_id,
                                   do_sample=True,
                                   max_length=max_length,
                                   min_length=max_length,
                                   top_k=40,
                                   num_beams=5,
                                   early_stopping=True,
                                   no_repeat_ngram_size=2,
                                   num_return_sequences=3)

for i, sample_output in enumerate(sample_outputs):
    print(">> Generated text {}\n\n{}".format(i+1, tokenizer.decode(sample_output.tolist())))
    print('\n---')

运行上述代码后，可能会得到如下的生成文本：

>> Generated text 1

Việt Nam là quốc gia có nền kinh tế hàng đầu thế giới về sản xuất, chế biến và tiêu thụ các sản phẩm nông sản, thủy sản. Tuy nhiên, trong những năm gần đây, nông nghiệp Việt Nam đang phải đối mặt với nhiều khó khăn, thách thức, đặc biệt là những tác động tiêu cực của biến đổi khí hậu.
Theo số liệu của Tổng cục Thống kê, tính đến cuối năm 2015, tổng diện tích gieo trồng, sản lượng lương thực, thực phẩm cả

---
>> Generated text 2

Việt Nam là quốc gia có nền kinh tế thị trường định hướng xã hội chủ nghĩa, có vai trò rất quan trọng đối với sự phát triển bền vững của đất nước. Do đó, trong quá trình đổi mới và hội nhập quốc tế, Việt Nam đã và đang phải đối mặt với không ít khó khăn, thách thức, đòi hỏi phải có những chủ trương, chính sách đúng đắn, kịp thời, phù hợp với tình hình thực tế. Để thực hiện thắng lợi mục tiêu, nhiệm vụ

---
>> Generated text 3

Việt Nam là quốc gia có nền kinh tế thị trường phát triển theo định hướng xã hội chủ nghĩa. Trong quá trình đổi mới và hội nhập quốc tế hiện nay, Việt Nam đang phải đối mặt với nhiều khó khăn, thách thức, đòi hỏi phải có những giải pháp đồng bộ, hiệu quả và phù hợp với tình hình thực tế của đất nước. Để thực hiện thắng lợi mục tiêu, nhiệm vụ mà Nghị quyết Đại hội XI của Đảng đề ra, Đảng và Nhà nước đã ban hành

---

🔧 技术细节

模型架构

该模型是一个基于Transformer的语言模型，具有12层，隐藏层大小为768。

训练情况

此模型在越南语Oscar数据集（32GB）上进行训练，以优化传统的语言建模目标。训练在v3 - 8 TPU上进行了约6天，在从Oscar数据集中选取的验证集上达到了约13.4的困惑度。

GPT - 2微调

以下示例展示了如何在WikiText - 2数据集上微调GPT - 2模型。我们使用的是原始的WikiText - 2数据集。可以使用此脚本进行微调，具体命令如下：

python run_clm.py \
    --model_name_or_path NlpHUST/gpt2-vietnamese \
    --dataset_name wikitext \
    --dataset_config_name wikitext-2-raw-v1 \
    --per_device_train_batch_size 8 \
    --per_device_eval_batch_size 8 \
    --do_train \
    --do_eval \
    --output_dir /tmp/test-clm