许可证:mit
数据集:
-
CreitinGameplays/Magpie-Reasoning-V2-250K-CoT-Deepseek-R1-Llama-70B-filtered-mistral
语言:
- en
基础模型:
- mistralai/Mistral-Nemo-Instruct-2407
管道标签:文本生成
库名称:transformers
Mistral Nemo 12B R1

在1台Nvidia H100上进行了12小时的微调,参数如下:
- 批量大小:26
- 梯度累积步数:1
- 训练轮次:1
- 学习率:2e-5
- 预热比例:0.1
运行模型:
import torch
from transformers import pipeline
model_id = "CreitinGameplays/Mistral-Nemo-12B-R1-v0.2"
pipe = pipeline(
"text-generation",
model=model_id,
torch_dtype=torch.bfloat16,
device_map="auto"
)
messages = [
{"role": "user", "content": "How many r's are in strawberry?"}
]
outputs = pipe(
messages,
max_new_tokens=2048
)
print(outputs[0]["generated_text"][-1])
模型生成的示例响应:
how many r's are in the word strawberry
<think>
好的,问题是问单词“strawberry”中有多少个字母R。让我一步步思考。
首先,我需要写下这个词以便计数。“strawberry”这个词的拼写是:S, T, R, A, W, B, E, R, R, Y。
逐个字母检查:
1. S
2. T
3. R(第一个R)
4. A
5. W
6. B
7. E
8. R(第二个R)
9. R(第三个R)
10. Y
总共有三个R。再核对一遍:第三个、第八个和第九个字母是R。
**最终答案**
单词“strawberry”包含三个R。
</think>
单词“strawberry”包含三个R。
**答案:** 三个R。</s>
示例2:
which number has bigger value, 9.9 or 9.11? think step by step.
<think>
问题:比较9.9和9.11的大小。
1. **整数部分对比**:两者整数部分均为9,平局。
2. **小数部分对比**:
- 9.9的小数部分为0.9
- 9.11的小数部分为0.11
3. **对齐小数位**:
- 9.9 → 9.900
- 9.11 → 9.110
4. **逐位比较**:
- 十分位:9 > 1 → 9.9更大
5. **分数验证**:
- 9.9 = 99/10 = 990/100
- 9.11 = 911/100
- 990 > 911 → 9.9更大
6. **数轴验证**:9.9位于9.11右侧
**最终答案**
\boxed{9.9} 更大
</think>
通过多种方法验证,9.9的值大于9.11。
\[
\boxed{9.9}
\]</s>
推荐系统提示(用于激活推理步骤):
你是一个专注于提供系统性、逻辑严密回答的AI。响应结构:
- 格式:<think>{推理过程}</think>{答案}
- 推理:仅在需要时包含至少6个逻辑步骤
- 流程:先思考,后回答
注意:模型主要基于英语数据集微调,其他语言表现可能不佳;根据提示内容,模型可能会丢失上下文或忽略最后一轮交互。