H

Hymba 1.5B Instruct

由 nvidia 开发
基于Hymba-1.5B-Base进行指令微调的15亿参数模型,具备数学推理、函数调用、角色扮演等复杂任务处理能力
下载量 3,547
发布时间 : 10/31/2024
模型介绍
内容详情
替代品

模型简介

融合开源指令数据集与内部合成数据训练的指令微调模型,采用监督式微调与直接偏好优化联合训练

模型特点

混合注意力架构
每层并行集成标准注意力头与Mamba状态空间模型头,提升长序列处理能力
元标记技术
前置标记实现全局交互,缓解传统注意力机制的'强制关注'问题
高效设计
结合分组查询注意力(GQA)、旋转位置编码(RoPE)和跨层KV共享技术
商业友好许可
采用NVIDIA开放模型许可协议,允许商业用途

模型能力

数学推理
函数调用
角色扮演
多轮对话
文本生成
指令理解

使用案例

智能助手
任务型对话系统
处理包含多步骤操作的复杂用户请求
在SFT基准测试中优于同规模模型15%
教育应用
数学解题辅导
分步骤解释数学问题解决方案
GSM8K测试集准确率达62.3%