🚀 Mistral-Small-Reasoning
Mistral-Small-Reasoning是基于mistralai/Mistral-Small-24B-Instruct-2501
微调的模型,专门针对数学推理任务进行了优化。它在多个数据集上进行了微调,以增强推理能力,可用于文本生成任务。
📚 详细文档
模型详情
属性 |
详情 |
模型类型 |
用于推理的指令调优语言模型 |
训练数据 |
- open-r1/OpenR1-Math-220k - yentinglin/s1K-1.1-trl-format - simplescaling/s1K-1.1 |
评估指标 |
准确率 |
基础模型 |
mistralai/Mistral-Small-24B-Instruct-2501 |
任务类型 |
文本生成 |
标签 |
推理 |
模型评估结果
与其他模型的对比评估
Pass@1 |
# Params |
MATH-500 |
AIME 2025 |
AIME 2024 |
GPQA Diamond |
Mistral-24B-Reasoning (Ours) |
24B |
95.0 |
53.33 |
66.67 |
62.02 |
Mistral-24B-Instruct |
24B |
70.6 |
- |
- |
45.3 |
s1.1-32B |
32B |
93.2 |
40.0 |
56.7 |
61.62 |
LIMO |
32B |
94.8 |
36.67 |
57.1 |
59.09 |
DeepSeek-R1-Distill-Llama-70B |
70B |
94.5 |
46.67 |
70.0 |
65.2 |
DeepSeek-R1-Distill-Qwen-32B |
32B |
94.3 |
60.0 |
72.6 |
62.1 |
DeepSeek-R1 |
671B |
97.3 |
70.0 |
72.6 |
71.5 |
o1 |
- |
96.4 |
79.0 |
- |
75.7 |
o3-mini (high) |
- |
97.9 |
86.5 |
- |
77.2 |
o3-mini (medium) |
- |
97.3 |
76.5 |
- |
74.9 |
🚀 快速开始
模型演示可在 twllm.com 查看,可使用 vLLM 或 sglang 进行推理。
🔧 技术细节
训练环境
模型使用 4×8 H100 GPUs 进行训练,由 Ubitus 提供。
训练配置
查看训练配置
axolotl 版本: a98526ef7843a3e8aa006f260e6b4fb8912b5f1a
base_model: mistralai/Mistral-Small-24B-Instruct-2501
plugins:
- axolotl.integrations.liger.LigerPlugin
liger_rope: true
liger_rms_norm: true
liger_swiglu: true
liger_fused_linear_cross_entropy: true
datasets:
- path: yentinglin/s1K-1.1-trl-format
type: chat_template
chat_template: tokenizer_default
field_messages: messages
message_field_role: role
message_field_content: content
- path: open-r1/OpenR1-Math-220k
type: chat_template
chat_template: tokenizer_default
field_messages: messages
message_field_role: from
message_field_content: value
dataset_prepared_path:
val_set_size: 0.0
output_dir: ./placeholder/
sequence_len: 32768
sample_packing: true
eval_sample_packing: False
pad_to_sequence_len: true
wandb_project: Reasoning
wandb_entity:
wandb_watch:
wandb_name: Mistral-24B-SFT-220k
wandb_log_model:
gradient_accumulation_steps: 4
micro_batch_size: 1
num_epochs: 5
optimizer: adamw_torch_fused
lr_scheduler: cosine
learning_rate: 2e-5
train_on_inputs: false
group_by_length: false
bf16: auto
tf32: false
gradient_checkpointing: true
gradient_checkpointing_kwargs:
use_reentrant: false
logging_steps: 1
flash_attention: true
warmup_ratio: 0.1
saves_per_epoch: 2
weight_decay: 0.0
deepspeed: deepspeed_configs/zero3_bf16.json
special_tokens:
pad_token: "<pad>"
评估
评估代码可在 Hugging Face Open-R1 查看。注意,AIME 25 数据集已更新为完整版本,可在 AIME 2025 获取。评估结果为多次运行的平均值,详细评估信息可查看 此处。
📄 许可证
本模型采用 Apache 2.0 许可证。
📖 引用
如果使用此模型,请引用以下内容:
@article{yentinglin2025_mistral_reasoning,
author = {Yenting Lin},
title = {Mistral-Small-24B-Instruct-2501-reasoning},
journal = {Hugging Face},
year = {2025},
url = {https://huggingface.co/yentinglin/Mistral-Small-24B-Instruct-2501-reasoning}
}
⚠️ 免责声明
本模型「如是」(as‑is)提供,不附带任何形式的保证。使用者须自行评估模型输出的准确性和适用性。开发者对于使用本模型所引发的任何直接或间接损失,不承担任何法律责任。
本模型严禁用于医疗诊断、法律咨询、金融投资等高风险场景;若有相关需求,请寻求专业人员协助。