许可证:其他
数据集:
- vietgpt/wikipedia_vi
- 维基百科
- pg19
- mc4
语言:
- 越南语
- 英语
分词器
我们在vietnamese-llama2-7b-40GB的基础上进一步优化了分词器,通过在更广泛的越南语文档集合上训练SentencePiece,涵盖新闻、书籍、股票、金融和法律等多个领域。与之前版本不同,我们遵循原始LLaMA-2论文的方法,将所有数字拆分为单个数字。更新后的分词器显著提升了越南语文本的编码效率,相比ChatGPT减少了50%的token数量,相比原始Llama2减少了约70%。
预训练数据
以下是我们的数据来源:
我们将所有数据源合并并进行最终去重,得到124 GB的预训练数据集,其中包括104 GB越南语文本和20 GB英语文本。
持续预训练
我们使用Llama2-7B模型进行了单轮持续预训练。
模型在DGX A100系统上训练,使用4块A100 GPU,耗时40天(约4000 GPU小时)。
超参数设置如下:
-
训练模式:BFloat16混合精度
-
Lora配置:
{
"base_model_name_or_path": "meta-llama/Llama-2-7b-hf",
"bias": "none",
"enable_lora": null,
"fan_in_fan_out": false,
"inference_mode": true,
"lora_alpha": 32.0,
"lora_dropout": 0.05,
"merge_weights": false,
"modules_to_save": [
"embed_tokens",
"lm_head"
],
"peft_type": "LORA",
"r": 8,
"target_modules": [
"q_proj",
"v_proj",
"k_proj",
"o_proj",
"gate_proj",
"down_proj",
"up_proj"
],
"task_type": "CAUSAL_LM"
}
我们还提供了LoRA部分,以便您可以自行将其与原始Llama2-7b集成。
请注意,**此模型需要进一步的监督微调(SFT)**才能在实际中使用!
使用和其他注意事项:请参考Llama 2
训练损失
红线表示vietnamese-llama2-7b-40GB的学习曲线,而青色线对应新的120 GB模型。

免责声明
本项目基于Meta的Llama-2模型构建。使用此模型时,必须严格遵守Llama-2的开源许可协议。如果使用第三方代码,请确保遵守相关的开源许可协议。
需要注意的是,模型的生成内容可能受到多种因素的影响,如计算方法、随机因素以及量化过程中的潜在误差。因此,本项目不对模型输出的准确性提供任何保证,也不对因使用模型资源及其输出而产生的任何后果承担责任。
对于将本项目模型用于商业用途的用户,开发者必须遵守当地法律法规,确保模型输出内容的合规性。本项目不对由此产生的任何产品或服务负责。
致谢
我们感谢PHPC - Phenikaa大学和NVIDIA慷慨提供模型训练所需的计算资源。同时,我们感谢binhvq、iambestfeed以及其他作者在越南语文本语料库收集和准备方面的辛勤工作。
如果本数据集用于您的工作,请引用我们的论文
@article{duc2024towards,
title={Towards Comprehensive Vietnamese Retrieval-Augmented Generation and Large Language Models},
author={Nguyen Quang Duc, Le Hai Son, Nguyen Duc Nhan, Nguyen Dich Nhat Minh, Le Thanh Huong, Dinh Viet Sang},
journal={arXiv preprint arXiv:2403.01616},
year={2024}
}