M

Minitron 8B Base

由 nvidia 开发
Minitron-8B-Base是通过剪裁Nemotron-4 15B获得的大型语言模型,采用蒸馏持续训练方法,相比从头训练节省了40倍的训练token和1.8倍的计算成本。
下载量 5,725
发布时间 : 7/19/2024
模型介绍
内容详情
替代品

模型简介

Minitron-8B-Base是一个高效的大型语言模型,通过剪裁和蒸馏技术从Nemotron-4 15B模型衍生而来,主要用于文本生成任务。

模型特点

高效训练
相比从头训练,节省了40倍的训练token和1.8倍的计算成本。
高性能
在MMLU分数上表现出高达16%的提升,性能与Mistral 7B、Gemma 7B和Llama-3 8B等社区模型相当。
先进架构
采用分组查询注意力(GQA)和旋转位置嵌入(RoPE)等先进技术。

模型能力

文本生成
语言理解
代码生成

使用案例

自然语言处理
文本补全
根据给定的文本提示生成连贯的后续文本。
生成流畅且语义连贯的文本。
问答系统
回答用户提出的问题。
提供准确且相关的答案。
代码生成
代码补全
根据给定的代码片段生成后续代码。
生成功能正确的代码片段。