J

Jetmoe 8b Chat

由 jetmoe 开发
JetMoE-8B是一款高效开源的大语言模型,以10万美元低成本训练超越LLaMA2-7B性能,推理时仅激活22亿参数
下载量 26
发布时间 : 3/31/2024
模型介绍
内容详情
替代品

模型简介

基于混合专家架构(MoE)的开源大语言模型,专注于高效推理和低成本训练,适用于对话生成、代码补全等任务

模型特点

低成本高效训练
仅用10万美元成本(96×H100训练2周)即超越LLaMA2-7B性能
高效推理
推理时仅激活22亿参数,显著降低计算成本
完全开源
使用公开数据集训练,代码开源,支持消费级GPU微调
两阶段训练方案
采用MiniCPM训练法:阶段1基础训练+阶段2高质量数据微调

模型能力

文本生成
对话系统
代码补全
数学问题求解
多轮对话

使用案例

对话系统
智能聊天机器人
构建友好且知识丰富的对话助手
MT-Bench评分6.681,超越Llama-2-13b-chat
代码生成
编程辅助
自动生成和补全代码
MBPP基准Pass@1达34.2%,优于LLaMA2-7B