Z

Zephyr Orpo 141b A35b V0.1

由 HuggingFaceH4 开发
Zephyr 141B-A39B是基于Mixtral-8x22B-v0.1微调的大型语言模型,采用ORPO对齐算法训练,旨在成为有用的助手。
下载量 3,382
发布时间 : 4/10/2024
模型介绍
内容详情
替代品

模型简介

Zephyr 141B-A39B是一个专家混合(MoE)模型,总参数量141B,激活参数量39B。在聊天、代码、数学和推理数据的混合上进行了微调,支持英语为主的交互。

模型特点

ORPO对齐算法
采用Odds Ratio Preference Optimization (ORPO)算法进行训练,比DPO和PPO等方法计算效率更高。
高效训练
仅使用7k个实例,在4个节点(每个节点8个H100 GPU)上训练1.3小时完成。
多轮对话能力
基于高质量、多轮合成偏好数据集训练,具备优秀的对话交互能力。

模型能力

文本生成
多轮对话
代码生成
数学推理

使用案例

对话助手
智能客服
用于提供客户支持和解答常见问题
能够理解复杂问题并提供准确回答
教育辅助
概念解释
用简单语言解释复杂概念
能够将专业术语转化为儿童易懂的语言