Gemma-3-4b推理开源语言模型 - 专注推理任务，高效解决各类问题

首页

Gemma 3 4b Reasoning

由 ericrisco 开发

Gemma-3-4b推理是基于Transformer架构的语言模型，采用GRPO方法微调，专注于推理任务优化。

大型语言模型

Transformers

英语开源协议:Apache-2.0 #数学推理优化 #结构化问题求解 #GRPO微调

下载量 53

发布时间 : 3/13/2025

模型简介

该模型专为结构化推理任务设计，擅长数学与逻辑推理、多步骤问题求解和基于指令的推理。

模型特点

GRPO优化

采用群体奖励策略优化方法进行微调，提升模型推理能力。

结构化推理

擅长处理需要逐步推理和结构化解释的任务。

数学能力

在数学和逻辑推理问题上表现优异。

模型能力

数学推理

逻辑推理

多步骤问题求解

结构化解释生成

使用案例

教育

数学问题解答

解答复杂的数学应用题，提供逐步推理过程。

能够正确解答GSM8K数据集中的数学问题。

研究

逻辑推理测试

用于测试和评估AI系统的逻辑推理能力。

🚀 Gemma-3-4b推理R1模型卡片

Gemma-3-4b推理是一个基于Transformer的语言模型，它使用GRPO（组奖励策略优化）进行微调，并采用了DeepSeek-R1方法。本模型卡片描述的是专门为推理任务优化的指令版本。

整个Gemma-3-4b推理系列模型均采用宽松的Apache 2.0许可证。所有使用的训练脚本和配置均公开可用。

🚀 快速开始

本部分将介绍如何使用Gemma-3-4b推理模型进行推理任务。以下是一个使用Python和transformers库的示例代码：

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

model_name = "ericrisco/gemma-3-4b-reasoning"

prompt = "A cyclist travels 60 km in 3 hours at a constant speed. If he maintains the same speed, how many kilometers will he travel in 5 hours?"

tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name, device_map="auto", torch_dtype=torch.bfloat16
)

messages = [{"role": "user", "content": prompt}]

input_text = tokenizer.apply_chat_template(
    messages, tokenize=False, add_generation_prompt=True
)

inputs = tokenizer(input_text, return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_new_tokens=200)
response = tokenizer.decode(outputs[0], skip_special_tokens=True)

print(response)