J

Jetmoe 8b

由 jetmoe 开发
JetMoE-8B是一款高效开源大语言模型,以不足10万美元的训练成本达到LLaMA2-7B性能水平,专为低资源环境设计。
下载量 1,337
发布时间 : 3/25/2024
模型介绍
内容详情
替代品

模型简介

JetMoE-8B采用混合专家架构(MoE),在80亿总参数中仅动态激活22亿参数,显著降低计算成本。模型在1.25T公开数据集上训练,支持文本生成、代码补全等任务。

模型特点

超低成本训练
仅用8万美元成本(96张H100训练2周)即达到LLaMA2-7B性能,打破大模型必须高投入的行业认知
动态参数激活
每个token仅激活2/8专家,80亿参数中实际计算仅22亿,推理效率显著提升
学术友好设计
完全基于公开数据集训练,消费级GPU即可微调,降低研究门槛

模型能力

文本生成
代码补全
对话交互
数学推理
常识问答

使用案例

教育科研
实验室级模型研究
普通学术机构可用消费级设备进行模型微调与实验
相比传统大模型降低90%+研究成本
商业应用
低成本对话系统
部署高效推理的聊天机器人
MT-Bench评分6.681,超越LLaMA2-7B-chat