强化学习推理

# 强化学习推理

Acereason Nemotron 7B GGUF

AceReason-Nemotron-7B是一款通过强化学习训练的数学和代码推理模型，基于DeepSeek-R1-Distilled-Qwen-7B开发，在多个推理基准测试中表现出色。

大型语言模型

Transformers 支持多种语言

Acereason Nemotron 14B GGUF

基于强化学习训练的数学与编程推理模型，在多项基准测试中表现优异

大型语言模型

Transformers 英语

Seed Coder 8B Reasoning GGUF

Seed-Coder-8B-Reasoning是一个8B规模的开源代码模型，专注于代码生成和推理任务，具有强大的性能和高效的参数利用。

大型语言模型

Seed Coder 8B Instruct

Seed-Coder-8B-Instruct 是一个8B规模的开源代码模型，经过指令微调以符合用户意图，支持32K上下文长度。

大型语言模型

Open Reasoner Zero 7B

开放推理者零号是基于基础模型规模化强化学习的开源方案，专注于可扩展性、简洁性和易用性的大规模推理导向强化学习实现。

大型语言模型

Open-Reasoner-Zero

Deepseek R1 Distill Qwen 32B Unsloth Bnb 4bit

DeepSeek-R1 是由 DeepSeek 团队推出的第一代推理模型，通过大规模强化学习训练，无需监督微调（SFT）作为初步步骤，展现出卓越的推理能力。

大型语言模型

Transformers 英语

Deepseek R1 Zero

DeepSeek-R1 是 DeepSeek 推出的第一代推理模型，通过强化学习训练而成，在数学、代码和推理任务上表现优异。

大型语言模型

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24