V

Vietnamese Llama2 7b 40GB

由 bkai-foundation-models 开发
基于Llama2-chat 7B的越南语优化模型,通过增量预训练和高效分词器显著提升越南语处理能力
下载量 23
发布时间 : 10/26/2023
模型介绍
内容详情
替代品

模型简介

该模型是针对越南语优化的Llama2变体,通过重新训练分词器和持续预训练,显著提高了越南语文本编码效率,适用于越南语自然语言处理任务

模型特点

高效越南语分词
采用SentencePiece训练专用分词器,越南语编码效率比原始Llama2提升70%
混合数据训练
使用40.5GB混合数据集(越南新闻、维基、法律文档及英文数据)进行增量预训练
LoRA适配
采用低秩适应(LoRA)技术进行高效训练,提供独立LoRA模块便于集成

模型能力

越南语文本生成
英语文本生成
跨语言理解

使用案例

内容生成
越南语新闻生成
基于新闻语料训练,可生成符合越南语习惯的新闻内容
法律辅助
法律文档处理
基于大量越南法律文本训练,适合法律文档分析和生成