vietnamese-llama2-7b-40GB开源模型 - 优化越南语处理，提升语言交互体验

首页

Vietnamese Llama2 7b 40GB

由 bkai-foundation-models 开发

基于Llama2-chat 7B的越南语优化模型，通过增量预训练和高效分词器显著提升越南语处理能力

大型语言模型

Transformers

支持多种语言开源协议:其他 #越南语优化 #LoRA微调 #多语言混合训练

下载量 23

发布时间 : 10/26/2023

模型简介

该模型是针对越南语优化的Llama2变体，通过重新训练分词器和持续预训练，显著提高了越南语文本编码效率，适用于越南语自然语言处理任务

模型特点

高效越南语分词

采用SentencePiece训练专用分词器，越南语编码效率比原始Llama2提升70%

混合数据训练

使用40.5GB混合数据集（越南新闻、维基、法律文档及英文数据）进行增量预训练

LoRA适配

采用低秩适应(LoRA)技术进行高效训练，提供独立LoRA模块便于集成

模型能力

越南语文本生成

英语文本生成

跨语言理解

使用案例

内容生成

越南语新闻生成

基于新闻语料训练，可生成符合越南语习惯的新闻内容

法律辅助

法律文档处理

基于大量越南法律文本训练，适合法律文档分析和生成

🚀 越南语Llama2-7B模型训练项目

本项目聚焦于对越南语Llama2-7B模型的训练优化，通过重新训练分词器、多语言混合数据集持续预训练等操作，提升模型在越南语及英语文本处理上的性能。

🚀 快速开始

本项目主要进行了两方面的工作：重新训练越南语分词器和持续预训练模型。以下是详细介绍。

✨ 主要特性

重新训练分词器

我们采用 SentencePiece 重新训练了一个词汇量为20K的越南语分词器，未使用越南语分词技术。随后，将此词汇表与Llama2原有的词汇表合并，并去除重复的标记。新的分词器在编码越南语文本时表现显著提升，与ChatGPT相比，标记数量减少了50%；与原始的Llama2相比，减少了约70%。

持续预训练模型

我们使用Llama2-chat 7B模型在一个总计40.5GB的混合数据集上进行了单轮次的持续预训练（也称为增量预训练）。该混合数据集包含：

19GB NewsCorpus
1.1GB越南语维基百科
1.6GB 越南语书籍
4.5GB越南语法律文件（从thuvienphapluat爬取并自行处理）
2.1GB越南语法律文本（来自 C4-vi）
1.1GB英语书籍（从 pg19 子采样）
1.1GB英语维基百科（从20220301.en维基百科子采样）
10GB英语文本（从 C4-en 子采样）

我们在DGX A100系统上使用四个A100 GPU进行了10天（约1000 GPU小时）的模型训练。

📦 安装指南

文档未提及安装相关内容，故跳过此章节。

💻 使用示例

文档未提供代码示例，故跳过此章节。

📚 详细文档

超参数设置

训练机制：BFloat16混合精度
LoRA配置：

{
    "base_model_name_or_path": "meta-llama/Llama-2-7b-chat-hf",
    "bias": "none",
    "enable_lora": null,
    "fan_in_fan_out": false,
    "inference_mode": true,
    "lora_alpha": 32.0,
    "lora_dropout": 0.05,
    "merge_weights": false,
    "modules_to_save": [
        "embed_tokens",
        "lm_head"
    ],
    "peft_type": "LORA",
    "r": 8,
    "target_modules": [
        "q_proj",
        "v_proj",
        "k_proj",
        "o_proj",
        "gate_proj",
        "down_proj",
        "up_proj"
    ],
    "task_type": "CAUSAL_LM"
}

模型集成

我们还提供了 LoRA部分，以便你可以自行将其与原始的Llama2-chat-7B集成。

注意事项

⚠️ 重要提示

此模型在实际使用前需要进一步的有监督微调（SFT）！

💡 使用建议

关于使用和其他注意事项，请参考 Llama 2。

训练损失

训练损失曲线如下： Training Loss Curve

🔧 技术细节

本项目在技术实现上主要包括重新训练分词器和持续预训练模型两个关键步骤。重新训练分词器时，利用SentencePiece工具生成越南语词汇表并与Llama2原有词汇表合并，有效减少了越南语文本编码时的标记数量。在持续预训练阶段，使用多语言混合数据集，涵盖越南语和英语的多种文本来源，在DGX A100系统上进行了长时间的训练，通过设置特定的超参数和LoRA配置，提升模型性能。

📄 许可证

本项目基于Meta的Llama-2模型构建。在使用此模型时，必须严格遵守Llama-2的开源许可协议。如果你引入了第三方代码，请确保遵守相关的开源许可协议。

需要注意的是，模型生成的内容可能会受到多种因素的影响，如计算方法、随机元素以及量化可能存在的不准确等。因此，本项目不保证模型输出的准确性，并且对使用模型资源及其输出所产生的后果不承担任何责任。

对于将本项目模型用于商业目的的用户，开发者必须遵守当地法律法规，确保模型输出内容的合规性。本项目对由此产生的任何产品或服务不承担责任。

📖 引用信息

请在使用此数据集进行研究时引用我们的论文

@article{duc2024towards,
    title={Towards Comprehensive Vietnamese Retrieval-Augmented Generation and Large Language Models},
    author={Nguyen Quang Duc, Le Hai Son, Nguyen Duc Nhan, Nguyen Dich Nhat Minh, Le Thanh Huong, Dinh Viet Sang},
    journal={arXiv preprint arXiv:2403.01616},
    year={2024}
}