StableLM Zephyr 3B开源指令调优模型 - 基于多数据集训练性能超棒

首页

Stablelm Zephyr 3b GGUF

由 brittlewis12 开发

StableLM Zephyr 3B是一个30亿参数的指令调优模型，基于公开数据集、合成数据集和直接偏好优化(DPO)训练，性能表现优异。

大型语言模型英语开源协议:其他 #指令微调 #轻量级DPO优化 #多任务评估

下载量 51

发布时间 : 4/25/2025

模型简介

这是一个30亿参数的因果语言模型，专门针对指令任务进行了优化，适用于文本生成和对话任务。

模型特点

指令调优优化

模型经过专门的指令调优训练，能够更好地理解和执行用户指令

直接偏好优化(DPO)

采用直接偏好优化方法训练，提高了模型输出的质量和相关性

多数据集训练

基于多个高质量数据集训练，包括ultrachat_200k、ultrafeedback_binarized等

GGUF格式支持

提供GGUF格式模型文件，便于在各种设备上运行

模型能力

文本生成

对话系统

指令理解与执行

内容创作

使用案例

对话系统

智能助手

可作为智能对话助手使用

在AlpacaEval评估中获得76%胜率

内容创作

文本生成

可用于生成各种类型的文本内容

🚀 StableLM Zephyr 3B GGUF

本项目包含Stability AI的StableLM Zephyr 3B模型的GGUF格式文件。StableLM Zephyr 3B是一个具有30亿参数的指令微调模型，受HugginFaceH4的Zephyr 7B训练流程启发，该模型在多种公开可用数据集和使用直接偏好优化（DPO）生成的合成数据集上进行训练，并基于MT Bench和Alpaca Benchmark进行评估。

🚀 快速开始

模型信息

属性	详情
基础模型	stabilityai/stablelm-zephyr-3b
数据集	HuggingFaceH4/ultrachat_200k、HuggingFaceH4/ultrafeedback_binarized、meta-math/MetaMathQA、WizardLM/WizardLM_evol_instruct_V2_196k、Intel/orca_dpo_pairs
许可证	other
许可证链接	https://huggingface.co/stabilityai/stablelm-zephyr-3b/blob/main/LICENSE
语言	en
模型创建者	stabilityai
模型名称	stablelm-zephyr-3b
模型类型	stablelm_epoch
推理	false
标签	causal-lm、stablelm_epoch
管道标签	text-generation
量化者	brittlewis12

什么是GGUF？

GGUF是一种用于表示AI模型的文件格式。它是该格式的第三个版本，由llama.cpp团队于2023年8月21日推出。它是GGML的替代品，目前llama.cpp已不再支持GGML。本模型使用llama.cpp b1960 (26d6076)进行转换。

提示模板：Zephyr

<|system|>
{{system_message}}<|endoftext|>
<|user|>
{{prompt}}<|endoftext|>
<|assistant|>

📦 下载与运行

你可以在iPhone、iPad和Mac上使用cnvrs下载并运行本模型！

cnvrs.ai

cnvrs是在你的设备上运行私有本地AI的最佳应用：

创建并保存带有自定义系统提示和温度设置的角色
下载并试验你可以在HuggingFace上找到的任何GGUF模型！
用自定义主题颜色打造属于你自己的风格
由Metal ⚡️ 和 Llama.cpp 提供支持，在响应流式传输时带有触觉反馈！
今天就亲自在 Testflight 上试用！
关注 cnvrs的Twitter 以获取最新信息

📚 详细文档

原始模型评估

mt-bench

模型	大小	对齐方式	MT-Bench（得分）	AlpacaEval（胜率 %）
StableLM Zephyr 3B 🪁	3B	DPO	6.64	76.00
StableLM Zephyr（仅SFT）	3B	SFT	6.04	71.15
Capybara v1.9	3B	dSFT	5.94	-
MPT-Chat	7B	dSFT	5.42	-
Xwin-LM v0.1	7B	dPPO	6.19	87.83
Mistral-Instruct v0.1	7B	-	6.84	-
Zephyr-7b-α	7B	dDPO	6.88	-
Zephyr-7b-β	7B	dDPO	7.34	90.60
Falcon-Instruct	40B	dSFT	5.17	45.71
Guanaco	65B	SFT	6.41	71.80
Llama2-Chat	70B	RLHF	6.86	92.66
Vicuna v1.3	33B	dSFT	7.12	88.99
WizardLM v1.0	70B	dSFT	7.71	-
Xwin-LM v0.1	70B	dPPO	-	95.57
GPT-3.5-turbo	-	RLHF	7.94	89.37
Claude 2	-	RLHF	8.06	91.36
GPT-4	-	RLHF	8.99	95.28

任务	值
ARC（25-shot）	47.0
HellaSwag（10-shot）	74.2
MMLU（5-shot）	46.3
TruthfulQA（0-shot）	46.5
Winogrande（5-shot）	65.5
GSM8K（5-shot）	42.3
BigBench（平均）	35.26
AGI Benchmark（平均）	33.23