数据集:
- NVIDIA/开放代码推理
管道标签: 图像文本到文本
海码-R1-蒸馏-Gemma-27B
值得注意的是,这个支持思维链的模型仅使用单张RTX 4090D显卡完成训练,这得益于对GPU显存和系统内存管理的优化,以及在训练步骤中应用的特定技术。
模型概览
海码-R1-蒸馏-Gemma-27B是基于谷歌Gemma-3 27B基础模型微调的大型语言模型。该模型专门针对思维链推理和代码生成任务进行了优化。
- 基础模型: google/gemma-3-27b
- 微调者: tonyli8623
- 专注领域: 思维链推理、代码生成、代码解释、调试
- 语言: 提示和推理主要使用英语,可生成多种编程语言代码
核心特性
- 增强型思维链推理: 经过专门训练,能将复杂问题分解为中间步骤后再给出最终答案,特别适用于复杂编程或算法任务
- 强大代码能力: 可生成、解释、调试和转换多种编程语言代码(如Python、JavaScript、Java、C++、SQL等)
- Gemma-3基础: 基于谷歌Gemma-3 27B模型的强大高效架构
- 蒸馏增强: 可能受益于知识蒸馏技术,相比标准微调在目标任务上表现更优
使用方法
可通过Hugging Face的transformers
库使用本模型:
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
model_id = "tonyli8623/Hicoder-R1-Distill-Gemma-27B"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
model_id,
torch_dtype=torch.bfloat16,
device_map="auto"
)
prompt_simple = "编写计算阶乘的Python函数"
messages_simple = [{"role": "user", "content": prompt_simple}]
input_ids_simple = tokenizer.apply_chat_template(messages_simple, tokenize=True, add_generation_prompt=True, return_tensors="pt").to(model.device)
outputs_simple = model.generate(
input_ids_simple,
max_new_tokens=150,
do_sample=True,
temperature=0.7,
top_k=50,
top_p=0.95
)
print(tokenizer.decode(outputs_simple[0][input_ids_simple.shape[1]:], skip_special_tokens=True))
prompt_cot = """请分步思考:如何使用埃拉托斯特尼筛法编写找出素数的Python函数"""
messages_cot = [{"role": "user", "content": prompt_cot}]
input_ids_cot = tokenizer.apply_chat_template(messages_cot, tokenize=True, add_generation_prompt=True, return_tensors="pt").to(model.device)
outputs_cot = model.generate(
input_ids_cot,
max_new_tokens=500,
do_sample=True,
temperature=0.6,
top_k=50,
top_p=0.95
)
print(tokenizer.decode(outputs_cot[0][input_ids_cot.shape[1]:], skip_special_tokens=True))
提示技巧: 为获得最佳效果,特别是需要思维链推理时,明确要求模型"逐步思考"或"在代码前提供推理过程"。可在系统提示中添加"作为精通多语言的代码工程师,请在回答前用标签展示完整思考过程"。
局限性
- 基于Gemma-3模型,继承其能力边界
- 可能生成错误/低效/不安全代码,需人工复核
- 知识截止于训练数据时间点
- 可能存在训练数据中的偏见
- 思维链推理可能偶现逻辑瑕疵
许可协议
遵循Gemma使用条款及附加条款:
- Gemma使用条款: https://ai.google.dev/gemma/terms
- 微调许可: 遵循基础模型许可
引用文献
@misc{海码R1蒸馏Gemma27B_2024,
title={海码-R1-蒸馏-Gemma-27B:专注思维链与代码生成的模型},
author={tonyli8623},
year={2024},
howpublished={\url{模型链接}}
联系方式
如有疑问请联系:tonyli288@gmail.com