vietnamese-llama2-7b-120GB开源越南语大模型 - 提升越英双语语言理解能力

首页

Vietnamese Llama2 7b 120GB

由 bkai-foundation-models 开发

基于Llama-2-7B优化的越南语大语言模型，通过持续预训练在124GB多领域越南语和英语数据上增强语言理解能力

大型语言模型

Transformers

支持多种语言开源协议:其他 #越南语优化 #多领域预训练 #LoRA微调

下载量 65

发布时间 : 12/20/2023

模型简介

这是一个专门针对越南语优化的7B参数大语言模型，通过LoRA技术在多领域越南语数据上进行持续预训练，显著提升了越南语文本处理效率

模型特点

优化的越南语分词器

在广泛越南语语料上训练的SentencePiece分词器，比ChatGPT减少50%token数量，比原始Llama2减少约70%

多领域预训练数据

整合124GB高质量数据(104GB越南语+20GB英语)，涵盖新闻、维基百科、书籍、法律文档等多个领域

LoRA高效微调

采用LoRA技术进行持续预训练，保持模型核心参数不变的同时有效提升越南语能力

模型能力

越南语文本生成

英语文本生成

跨语言理解

多领域文本处理

使用案例

内容生成

越南语新闻写作

基于新闻语料训练，可辅助新闻内容生成

法律文档处理

经过法律文档训练，可处理相关专业文本

教育

越南语学习辅助

可作为越南语学习者的语言模型参考

🚀 越南语 LLaMA - 2

越南语 LLaMA - 2 是基于 Meta 的 Llama - 2 模型开发的，通过对分词器的优化和大量多领域数据的预训练，提升了对越南语的处理能力。该模型在多种越南语和英语文本数据上进行持续预训练，为越南语的自然语言处理任务提供了强大的支持。

🚀 快速开始

本项目的 GitHub 仓库地址为：[https://github.com/bkai - research/Vietnamese - LLaMA - 2](https://github.com/bkai - research/Vietnamese - LLaMA - 2)。

需要注意的是，此模型在实际使用前需要进一步进行有监督的微调（SFT）。关于使用方法和其他注意事项，请参考 Llama 2。

✨ 主要特性

分词器优化

我们在 [vietnamese - llama2 - 7b - 40GB](https://huggingface.co/bkai - foundation - models/vietnamese - llama2 - 7b - 40GB) 的基础上，通过在更广泛的越南语清洁文档集合（涵盖新闻、书籍、股票、金融和法律等多个领域）上训练 SentencePiece 来增强分词器。与之前的版本不同，我们遵循原始的 LLaMA - 2 论文，将所有数字拆分为单个数字。更新后的分词器显著提升了越南语文本的编码效率，与 ChatGPT 相比，标记数量减少了 50%，与原始 Llama2 相比，减少了约 70%。

多语言数据预训练

预训练数据来源广泛，包括多种越南语文本和部分英语文本：

53 GB 新闻语料库（对 [binhvq 的新闻语料库](https://github.com/binhvq/news - corpus) 进行清洁和去重处理，并结合我们自爬到 2023 年 10 月的数据）。感谢 iambestfeed 在爬取新闻数据方面的出色工作。
1.3 GB 越南语维基百科（更新至 2023 年 10 月）
8.5 GB [越南语书籍](https://www.kaggle.com/datasets/iambestfeeder/10000 - vietnamese - books)
4.8 GB 越南语法律文档（清洁和去重）
1.6 GB 股票新闻（清洁和去重）
43 GB 越南语文本（从 Culturax - vi 中二次采样）
2.3 GB 英语书籍（从 pg19 中二次采样）
2.2 GB 英语维基百科
16 GB 英语文本（从 Culturax - en 中二次采样）

将所有数据源合并并进行最后一次去重后，得到了一个 124 GB 的最终预训练数据集，其中包括 104 GB 的越南语文本和 20 GB 的英语文本。

持续预训练

我们使用 Llama2 - 7B 模型进行单轮次的持续预训练。在 DGX A100 系统上，使用四个 A100 GPU 进行了 40 天（约 4000 GPU 小时）的训练。

超参数设置如下：

训练模式：BFloat16 混合精度
LoRA 配置：

{
    "base_model_name_or_path": "meta - llama/Llama - 2 - 7b - hf",
    "bias": "none",
    "enable_lora": null,
    "fan_in_fan_out": false,
    "inference_mode": true,
    "lora_alpha": 32.0,
    "lora_dropout": 0.05,
    "merge_weights": false,
    "modules_to_save": [
        "embed_tokens",
        "lm_head"
    ],
    "peft_type": "LORA",
    "r": 8,
    "target_modules": [
        "q_proj",
        "v_proj",
        "k_proj",
        "o_proj",
        "gate_proj",
        "down_proj",
        "up_proj"
    ],
    "task_type": "CAUSAL_LM"
}

我们还提供了 [LoRA 部分](https://huggingface.co/bkai - foundation - models/vietnamese - llama2 - 7b - 120GB/tree/main/pt_lora_model)，以便你可以自行将其与原始的 Llama2 - 7b 集成。

训练损失

红线表示 [vietnamese - llama2 - 7b - 40GB](https://huggingface.co/bkai - foundation - models/vietnamese - llama2 - 7b - 40GB) 的学习曲线，青色线对应 120 GB 的新模型。 ![训练损失曲线](https://github.com/bkai - research/Vietnamese - LLaMA - 2/raw/main/plot.png)

📄 许可证

本项目基于 Meta 的 Llama - 2 模型构建。在使用此模型时，必须严格遵守 Llama - 2 的开源许可协议。如果你引入第三方代码，请确保遵守相关的开源许可协议。

免责声明

需要注意的是，模型生成的内容可能会受到多种因素的影响，如计算方法、随机元素和量化可能存在的不准确性。因此，本项目不保证模型输出的准确性，并且对因使用模型资源及其输出而产生的后果不承担任何责任。对于将本项目模型用于商业目的的用户，开发者必须遵守当地法律法规，确保模型输出内容的合规性。本项目对由此产生的任何产品或服务不承担责任。

🙏 致谢

我们感谢 PHPC - 芬卡大学和 NVIDIA 慷慨提供用于模型训练的计算资源。同时，感谢 [binhvq](https://github.com/binhvq/news - corpus)、iambestfeed 以及其他作者在收集和准备越南语文本语料库方面的辛勤工作。

📚 引用

如果本数据集用于你的工作，请引用我们的论文：

@article{duc2024towards,
    title={Towards Comprehensive Vietnamese Retrieval - Augmented Generation and Large Language Models},
    author={Nguyen Quang Duc, Le Hai Son, Nguyen Duc Nhan, Nguyen Dich Nhat Minh, Le Thanh Huong, Dinh Viet Sang},
    journal={arXiv preprint arXiv:2403.01616},
    year={2024}
}