V

Vietnamese Llama2 7b 120GB

由 bkai-foundation-models 开发
基于Llama-2-7B优化的越南语大语言模型,通过持续预训练在124GB多领域越南语和英语数据上增强语言理解能力
下载量 65
发布时间 : 12/20/2023
模型介绍
内容详情
替代品

模型简介

这是一个专门针对越南语优化的7B参数大语言模型,通过LoRA技术在多领域越南语数据上进行持续预训练,显著提升了越南语文本处理效率

模型特点

优化的越南语分词器
在广泛越南语语料上训练的SentencePiece分词器,比ChatGPT减少50%token数量,比原始Llama2减少约70%
多领域预训练数据
整合124GB高质量数据(104GB越南语+20GB英语),涵盖新闻、维基百科、书籍、法律文档等多个领域
LoRA高效微调
采用LoRA技术进行持续预训练,保持模型核心参数不变的同时有效提升越南语能力

模型能力

越南语文本生成
英语文本生成
跨语言理解
多领域文本处理

使用案例

内容生成
越南语新闻写作
基于新闻语料训练,可辅助新闻内容生成
法律文档处理
经过法律文档训练,可处理相关专业文本
教育
越南语学习辅助
可作为越南语学习者的语言模型参考