L

Llama 3.1 Minitron 4B Width Base

由 nvidia 开发
Llama-3.1-Minitron-4B-Width-Base是一个基础文本到文本模型,通过对Llama-3.1-8B进行剪枝获得,适用于多种自然语言生成任务。
下载量 10.15k
发布时间 : 8/13/2024
模型介绍
内容详情
替代品

模型简介

该模型通过对Llama-3.1-8B进行剪枝获得,剪枝了模型的嵌入大小和MLP中间维度,并使用940亿个标记进行蒸馏持续训练,最终得到该模型。

模型特点

剪枝优化
通过对Llama-3.1-8B进行剪枝,优化了模型的嵌入大小和MLP中间维度,提高了效率。
蒸馏训练
使用940亿个标记进行蒸馏持续训练,提升了模型的性能。
商业用途
该模型已准备好用于商业用途,适用于多种自然语言生成任务。

模型能力

文本生成
自然语言理解
代码生成

使用案例

自然语言处理
文本补全
用于自动补全段落或句子,提升写作效率。
在8000个字符以内效果最佳。
问答系统
用于构建问答系统,回答用户提出的问题。
在零样本评估中表现良好。
代码生成
代码补全
用于自动补全代码片段,提升开发效率。
在MBPP评估中得分为32.0。