语言: vi
标签:
- vi
- 越南语
- gpt2
- 文本生成
- 语言模型
- 自然语言处理
数据集:
- oscar
小部件:
- 文本: "越南是一个拥有"
GPT-2
基于越南语预训练的GPT模型,采用因果语言建模(CLM)目标。该模型在这篇论文中首次提出,并在此页面发布。
如何使用该模型
import torch
from transformers import GPT2Tokenizer, GPT2LMHeadModel
tokenizer = GPT2Tokenizer.from_pretrained('NlpHUST/gpt2-vietnamese')
model = GPT2LMHeadModel.from_pretrained('NlpHUST/gpt2-vietnamese')
text = "越南是一个拥有"
input_ids = tokenizer.encode(text, return_tensors='pt')
max_length = 100
sample_outputs = model.generate(input_ids,pad_token_id=tokenizer.eos_token_id,
do_sample=True,
max_length=max_length,
min_length=max_length,
top_k=40,
num_beams=5,
early_stopping=True,
no_repeat_ngram_size=2,
num_return_sequences=3)
for i, sample_output in enumerate(sample_outputs):
print(">> 生成的文本 {}\n\n{}".format(i+1, tokenizer.decode(sample_output.tolist())))
print('\n---')
>> 生成的文本 1
越南是一个拥有世界领先经济体的国家,在农产品和水产品的生产、加工和消费方面表现突出。然而,近年来,越南农业正面临诸多困难和挑战,尤其是气候变化带来的负面影响。
根据统计总局的数据,截至2015年底,越南的总播种面积、粮食和食品产量...
---
>> 生成的文本 2
越南是一个拥有社会主义市场经济体制的国家,对国家可持续发展具有非常重要的作用。因此,在革新和国际一体化进程中,越南已经并正在面临不少困难和挑战,需要制定正确、及时、符合实际情况的方针政策。为实现大会决议提出的目标任务...
---
>> 生成的文本 3
越南是一个拥有社会主义定向市场经济的国家。在当前革新和国际一体化进程中,越南正面临诸多困难和挑战,需要采取同步、有效且符合国家实际情况的解决方案。为实现党的十一大决议提出的目标任务,党和国家已颁布...
---
模型架构
一个12层、768隐藏层大小的基于Transformer的语言模型。
训练
该模型在越南Oscar数据集(32GB)上进行了训练,以优化传统语言建模目标,在v3-8 TPU上训练了约6天。在从Oscar选定的验证集上达到了约13.4的困惑度。
GPT-2微调
以下示例在WikiText-2上对GPT-2进行微调。我们使用的是原始WikiText-2数据。
脚本在此。
python run_clm.py \
--model_name_or_path NlpHUST/gpt2-vietnamese \
--dataset_name wikitext \
--dataset_config_name wikitext-2-raw-v1 \
--per_device_train_batch_size 8 \
--per_device_eval_batch_size 8 \
--do_train \
--do_eval \
--output_dir /tmp/test-clm
联系方式
有关该项目的个人沟通,请联系Nha Nguyen Van (nha282@gmail.com)。