许可证: llama3.2
语言:
- 英文
基础模型:
- Pinkstack/Superthoughts-lite-v2-MOE-Llama3.2
任务标签: 文本生成
标签:
- 化学
- 代码
- 数学
- GRPO
- 对话
- MOE(混合专家)
- GGUF
GGUF版本。3.91B参数,2个活跃专家,共4个专家。
[GGUF !! 全精度 !! BF16]

信息
这是Superthoughts Lite v2的非实验版本,在所有任务中提供更高的准确性、更好的性能,并在生成响应时减少循环。
我们首先为所有专家创建了一个基础模型,该模型在meta-llama/Llama-3.2-1B-Instruct的基础上,使用Unsloth和GRPO技术进行了微调。
在完成基础模型后,我们使用SFT(监督微调)训练了每个潜在专家。完成SFT后,我们再次进行了GRPO。总共有4个专家:
- 聊天推理专家,
- 数学推理专家,
- 代码推理专家,
- 科学推理专家。
通过这种方式,我们获得了一个强大、轻量级的推理模型,非常适合其规模的使用场景。
该模型直接替代了Pinkstack/Superthoughts-lite-v1。Pinkstack/Superthoughts-lite-v1无法生成代码,且文本性能较差。V2版本更加实用。
您应使用以下系统提示:
思考:启用。
严格遵循以下格式:
<think>
在此写下您的逐步推理过程。
将问题分解为更小的部分。
系统地解决每个部分。
检查您的工作并验证答案是否合理。
</think>
[您的最终答案]。
模型信息
该模型最多可生成16,380个标记,上下文大小为131072。
它经过微调,可以在<think>
XML标签之间生成思考数据。请注意,它可能仍会有轻微的循环现象,但这种情况很少见。
限制
虽然我们进行了一些安全性对齐,但非常有限。因此,该模型有时可能不受审查。此外,用户和提供者应注意,所有大型语言模型(包括此模型)都可能产生幻觉并输出错误信息。请务必仔细检查响应。
聊天模型非常清楚自己的身份,因此除非您提供正确的信息,否则它可能会编造内容。
使用此模型即表示您同意LLAMA 3.2社区许可证。
GGUF模板
{{ if .Messages }}
{{- if or .System .Tools }}<|start_header_id|>system<|end_header_id|>
{{- if .System }}
{{ .System }}
{{- end }}
{{- if .Tools }}
您是一个具有工具调用能力的助手。当您收到工具调用响应时,请使用输出为原始问题格式化答案。
{{- end }}
{{- end }}<|eot_id|>
{{- range $i, $_ := .Messages }}
{{- $last := eq (len (slice $.Messages $i)) 1 }}
{{- if eq .Role "user" }}<|start_header_id|>user<|end_header_id|>
{{- if and $.Tools $last }}
给定以下函数,请以JSON格式响应函数调用及其参数,以最佳回答给定的提示。
以{"name": 函数名, "parameters": 参数字典}的格式响应。不要使用变量。
{{ $.Tools }}
{{- end }}
{{ .Content }}<|eot_id|>{{ if $last }}<|start_header_id|>assistant<|end_header_id|>
{{ end }}
{{- else if eq .Role "assistant" }}<|start_header_id|>assistant<|end_header_id|>
{{- if .ToolCalls }}
{{- range .ToolCalls }}{"name": "{{ .Function.Name }}", "parameters": {{ .Function.Arguments }}}{{ end }}
{{- else }}
{{ .Content }}{{ if not $last }}<|eot_id|>{{ end }}
{{- end }}
{{- else if eq .Role "tool" }}<|start_header_id|>ipython<|end_header_id|>
{{ .Content }}<|eot_id|>{{ if $last }}<|start_header_id|>assistant<|end_header_id|>
{{ end }}
{{- end }}
{{- end }}
{{- else }}
{{- if .System }}<|start_header_id|>system<|end_header_id|>
{{ .System }}<|eot_id|>{{ end }}{{ if .Prompt }}<|start_header_id|>user<|end_header_id|>
{{ .Prompt }}<|eot_id|>{{ end }}<|start_header_id|>assistant<|end_header_id|>
{{ end }}{{ .Response }}{{ if .Response }}<|eot_id|>{{ end }}