Sky T1 32B Flash

由 NovaSky-AI 开发

基于Sky-T1-32B-Preview优化的32B推理模型偏好版本，能在保持准确性的同时显著缩短生成长度。

大型语言模型

Transformers

英语

开源协议:Apache-2.0 #数学推理优化 #编程任务高效 #生成长度压缩

下载量 557

发布时间 : 1/23/2025

模型介绍

内容详情

替代品

模型简介

该模型在数学和编程任务上的表现与o1-preview模型相当，同时相比Sky-T1-32B-Preview减少了高达57%的生成长度。

模型特点

高效推理

相比Sky-T1-32B-Preview减少了高达57%的生成长度，显著降低推理成本。

保持准确性

在数学和编程任务上的表现与o1-preview模型相当，准确性不受影响。

优化训练

采用简单策略优化(SimPO)方法进行训练，提高模型效率。

模型能力

数学推理

编程任务推理

文本生成

使用案例

数学

数学问题解答

解答复杂的数学问题，如AIME24竞赛题。

准确率43.3%，平均长度减少37%。

编程

编程问题解答

解答编程竞赛中的简单、中等和难题。

简单题准确率89%，中等题56.3%，难题17.9%，平均长度减少34%-57%。

知识问答

MMLU知识问答

回答多学科知识问题。

准确率81.7%，平均长度减少17%。

库名称: transformers 数据集:

BAAI/TACO
tasksource/PRM800K 语言:
英文基础模型:
Qwen/Qwen2.5-32B-Instruct
NovaSky-AI/Sky-T1-32B-Preview 许可证: apache-2.0

模型详情

模型描述

这是一个基于Sky-T1-32B-Preview优化的32B推理模型偏好版本，能在保持准确性的同时显著缩短生成长度。在数学和编程任务上的表现与o1-preview模型相当，同时相比Sky-T1-32B-Preview减少了高达57%的生成长度。更多细节请参阅我们的博客文章。

开发团队: 加州大学伯克利分校Sky Computing实验室的NovaSky团队。

训练详情

训练数据

10K组数学和编程领域的偏好对，由Sky-T1-32B-Preview生成。

训练过程

我们采用简单策略优化(SimPO)方法，批次大小为96，学习率为5e-7，gamma为0.3，beta为2.0。

训练速度

使用Llama-Factory进行训练。在8xH100上，采用DeepSpeed Zero-3 Offload时，SimPO训练耗时约2.5小时。

评估结果

		Sky-T1-32B-Preview	Sky-T1-32B-Flash	Qwen2.5-32B-Instruct	QwQ-32B-基础版	DeepSeek-R1-蒸馏-Qwen-32B
Math500	准确率	88.6	88.6	76.2	89.2	90.8
	平均长度	2124	1417 (-33%)	522	2089	2010
AIME24	准确率	43.3	43.3	16.7	50	66.7
	平均长度	6881	4365 (-37%)	970	7379	9173
LCB简单题	准确率	87.4	89	84.6	90.7	91.2
	平均长度	3415	2265 (-34%)	414	3255	2775
LCB中等题	准确率	56.8	56.3	40.8	56.3	76.7
	平均长度	8263	4389 (-47%)	535	6742	6324
LCB难题	准确率	17.9	17.9	9.8	17.1	38.2
	平均长度	14564	6199 (-57%)	618	10450	10448
MMLU	准确率	82.4	81.7	80.1	85.2	82.1
	平均长度	1087	799 (-17%)	312	1041	774
GPQA钻石级	准确率	56.8	56.6	45.5	52.5	62.6
	平均长度	3503	2148 (-39%)	600	3302	5108

致谢

我们要感谢Lambda Lab和AnyScale提供的计算资源。

许可证

Apache-2.0

引用

如果您的研究受益于本文，请考虑引用我们的博客文章。感谢！

@misc{reduce_overthinking_2025,
  作者       = {NovaSky团队},
  标题        = {少思考，多成就：在不牺牲准确性的前提下降低50%推理成本},
  发布方式 = {https://novasky-ai.github.io/posts/reduce-overthinking},
  备注         = {访问日期: 2025-01-23},
  年份         = {2025}
}