I

Instella 3B Stage1

由 amd 开发
Instella是由AMD开发的30亿参数开源语言模型系列,基于AMD Instinct™ MI300X GPU训练,性能超越同规模全开源模型。
下载量 397
发布时间 : 3/5/2025
模型介绍
内容详情
替代品

模型简介

Instella系列是完全开源的先进30亿参数语言模型,在性能上超越现有同规模全开源模型,并与顶尖开源权重模型表现相当。

模型特点

高性能
在30亿参数规模下性能超越现有全开源模型,与顶尖开源权重模型相当
完全开源
完整开源模型权重、训练配置、数据集和代码
高效训练
采用FlashAttention-2、Torch Compile和混合分片的FSDP等高效训练技术
多阶段训练
包含预训练、监督微调和DPO对齐多个训练阶段

模型能力

文本生成
指令跟随
问题解答
对话交互

使用案例

自然语言处理
智能问答
回答用户提出的各种问题
在OLMES、FastChat MT-Bench等基准测试中表现优异
文本生成
根据提示生成连贯的文本内容
支持4096 token的上下文长度
教育
学习辅助
帮助学生理解复杂概念
在科学问答(SciQ)任务中达到96.6%准确率