OctoThinker-3B-Hybrid-Zero开源语言模型 - 基于Llama-3强化学习高效应用

首页

Octothinker 3B Hybrid Zero

由 OctoThinker 开发

OctoThinker-3B-Hybrid-Zero是基于Llama-3家族构建的强化学习基础语言模型，采用R1-Zero风格的强化学习技术进行训练。

大型语言模型

Safetensors

英语#强化学习优化 #零监督微调 #数学推理增强

下载量 210

发布时间 : 4/23/2025

模型简介

该模型直接从OctoThinker-3B-Hybrid-Base开始，使用强化学习技术进行训练，适合文本生成任务。

模型特点

强化学习训练

采用R1-Zero风格的强化学习技术进行训练，不经过任何监督微调（SFT）。

基于Llama-3家族

以Llama-3家族为基础构建，继承了其优秀的语言模型特性。

适合强化学习

专门设计用于强化学习的基础语言模型，适合进一步的任务优化。

模型能力

文本生成

强化学习基础模型

使用案例

学术研究

强化学习研究

作为基础模型用于强化学习算法的研究和开发。

文本生成

通用文本生成

用于生成各种类型的文本内容。

属性	详情
许可证	llama3.2
训练数据集	OctoThinker/MegaMath-Web-Pro-Max、LLM360/MegaMath
基础模型	meta-llama/Llama-3.2-3B
任务类型	文本生成

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

uer

2,694

智启未来，您的人工智能解决方案智库

简体中文

Octothinker 3B Hybrid Zero

模型简介

模型特点

模型能力

使用案例

🚀 OctoThinker-3B-Hybrid-Zero

📚 详细文档

模型信息

OctoThinker-3B-Hybrid-Base的训练方案

OctoThinker-3B-Base系列的评估结果

OctoThinker-3B-Zero系列的强化学习训练动态

关于OctoThinker的更多信息

📄 许可证

📚 引用