notbad_v1_1_mistral_24b开源大模型 - 提升数学推理与Python编程能力

首页

Notbad V1 1 Mistral 24b

由 notbadai 开发

专注于数学推理和Python编程训练的24B参数大语言模型，基于Mistral架构优化

大型语言模型

Transformers

开源协议:Apache-2.0 #数学推理优化 #Python编程强化 #简洁推理输出

下载量 34

发布时间 : 4/7/2025

模型简介

该模型在数学推理和编程领域进行了深度优化，能生成更简洁的推理过程输出。通过强化学习技术实现自我迭代优化，而非蒸馏自其他模型。

模型特点

数学推理优化

专门针对数学问题解决能力进行强化训练

Python编程能力

在编程任务特别是Python代码生成方面表现优异

简洁推理输出

能生成更简洁高效的推理过程，减少冗余信息

自我迭代优化

通过强化学习实现能力提升，而非依赖模型蒸馏

模型能力

数学问题求解

Python代码生成

文本生成

逻辑推理

指令遵循

使用案例

教育

数学辅导

帮助学生理解复杂数学概念和解题方法

在MMLU数学评估中得分0.749

编程教学

辅助编程学习，提供代码示例和解释

HumanEval评估得分0.872

开发

代码辅助

帮助开发者快速生成Python代码片段

🚀 Notbad v1.1 Mistral 24B模型卡

Notbad v1.1 Mistral 24B是一款专注于数学和Python编码推理的模型。相较于之前的Notbad v1.0 Mistral 24B，它在IFEval评测中取得了更优的成绩。该模型基于Mistral-Small-24B-Instruct-2501构建，并在数学和编码任务上通过强化学习进行了进一步训练。

✨ 主要特性

推理输出简洁：Notbad v1.0的一大关键特性是能够生成更简短、清晰的推理输出。
自我提升推理能力：此模型的推理能力源于自我提升，并非从其他模型中蒸馏而来。它是从多个基于Mistral-Small-24B-Instruct-2501的强化学习模型中采样数据进行微调的结果。
借鉴先进技术：使用了公开数据集，并采用了基于Quiet Star工作延续发展的强化学习技术，与Dr. GRPO类似。