# 强化学习推理

Acereason Nemotron 7B GGUF
其他
AceReason-Nemotron-7B是一款通过强化学习训练的数学和代码推理模型,基于DeepSeek-R1-Distilled-Qwen-7B开发,在多个推理基准测试中表现出色。
大型语言模型 Transformers 支持多种语言
A
Mungert
488
1
Acereason Nemotron 14B GGUF
其他
基于强化学习训练的数学与编程推理模型,在多项基准测试中表现优异
大型语言模型 Transformers 英语
A
unsloth
1,417
4
Seed Coder 8B Reasoning GGUF
MIT
Seed-Coder-8B-Reasoning是一个8B规模的开源代码模型,专注于代码生成和推理任务,具有强大的性能和高效的参数利用。
大型语言模型 Transformers
S
unsloth
2,550
2
Seed Coder 8B Instruct
MIT
Seed-Coder-8B-Instruct 是一个8B规模的开源代码模型,经过指令微调以符合用户意图,支持32K上下文长度。
大型语言模型 Transformers
S
ByteDance-Seed
3,103
83
Open Reasoner Zero 7B
MIT
开放推理者零号是基于基础模型规模化强化学习的开源方案,专注于可扩展性、简洁性和易用性的大规模推理导向强化学习实现。
大型语言模型 Transformers
O
Open-Reasoner-Zero
776
28
Deepseek R1 Distill Qwen 32B Unsloth Bnb 4bit
Apache-2.0
DeepSeek-R1 是由 DeepSeek 团队推出的第一代推理模型,通过大规模强化学习训练,无需监督微调(SFT)作为初步步骤,展现出卓越的推理能力。
大型语言模型 Transformers 英语
D
unsloth
938
10
Deepseek R1 Zero
MIT
DeepSeek-R1 是 DeepSeek 推出的第一代推理模型,通过强化学习训练而成,在数学、代码和推理任务上表现优异。
大型语言模型 Transformers
D
deepseek-ai
4,034
905
AIbase
智启未来,您的人工智能解决方案智库
简体中文