CodeV-R1-Distill-Qwen-7B开源模型 - 高效生成Verilog RTL代码，基准测试表现佳

首页

Codev R1 Distill Qwen 7B

由 zhuyaoyu 开发

基于DeepSeek-R1蒸馏的Verilog RTL代码生成模型，在Verilog基准测试中表现优异

大型语言模型

Transformers

#Verilog代码生成 #硬件设计推理 #知识蒸馏优化

下载量 154

发布时间 : 3/22/2025

模型简介

该模型是从DeepSeek-R1蒸馏而来的Verilog专用模型，专注于硬件描述语言(HDL)的代码生成和问题解决，在VerilogEval和RTLLM基准测试中超越同类模型，同时提升了数学推理能力

模型特点

卓越的Verilog生成能力

在VerilogEval和RTLLM基准测试中超越GPT-4等通用大模型

知识蒸馏技术

从DeepSeek-R1蒸馏获得类似推理能力

跨领域能力提升

Verilog训练意外提升了数学推理能力

高质量数据筛选

通过严格过滤保留87,000个高质量(问题，代码)对

模型能力

Verilog代码生成

硬件设计问题解决

数学推理

代码补全

规范到RTL翻译

使用案例

芯片设计

RTL代码生成

根据功能规范自动生成寄存器传输级代码

在VerilogEval规范到RTL任务中达到65.4%准确率

代码补全

辅助硬件工程师完成部分Verilog代码

在VerilogEval补全任务中达到65.1%准确率

硬件验证

测试用例生成

为硬件验证生成测试场景

🚀 CodeV-R1-Distill-Qwen-7B

CodeV-R1-Distill-Qwen-7B 是从 DeepSeek-R1 中使用 CodeV 数据集提炼出来的模型。该模型在主要的 Verilog 基准测试中优于先前的非推理大语言模型，展示了卓越的代码合成和问题解决能力。此外，提炼 Verilog 代码还增强了模型的数学推理能力，表明以硬件为中心的训练与一般逻辑推理之间存在更广泛的协同作用。

🚀 快速开始

CodeV-R1-Distill-Qwen-7B 可以像 Qwen 或 Llama 模型一样使用。例如，你可以使用 vLLM 轻松启动一个服务：

vllm serve zhuyaoyu/CodeV-R1-Distill-Qwen-7B --tensor-parallel-size 2 --max-model-len 16384 --enforce-eager

💡 使用建议

在训练和评估期间，我们使用了一个系统提示：

You are a helpful assistant. The assistant first thinks about the reasoning process in the mind and then provides the user with the answer. The reasoning process and answer are enclosed within <think> </think> and<answer> </answer> tags, respectively, i.e., <think> reasoning process here </think><answer> answer here </answer>.  Now the user asks you to write verilog code. After thinking, when you finally reach a conclusion, enclose the final verilog code in ```verilog ``` within <answer> </answer> tags. i.e., <answer> ```verilog\n module top_module(in, out, ...) ... ``` </answer>.\n

建议使用此提示。

✨ 主要特性

大语言模型（LLM）的后训练阶段发展迅速，如 OpenAI 的 GPT-o1、DeepSeek-R1 和 Kimi-1.5 等模型展现出了卓越的推理能力。然而，像 Verilog 这样的硬件描述语言（HDL）面临着类似低资源语言的挑战，包括高质量指令跟随数据有限以及模型在生成准确的寄存器传输级（RTL）代码方面的能力受限。为了解决这些问题，我们提出利用知识蒸馏为较小、高效的模型赋予类似 DeepSeek-R1 的推理能力。

作为 CodeV 工作的延续，我们引入了 CodeV-R1-Distill-Qwen-7B。该模型具有以下特性：

性能优越：在主要的 Verilog 基准测试中，该模型优于先前的非推理大语言模型，展示了卓越的代码合成和问题解决能力。
增强推理能力：提炼 Verilog 代码还增强了模型的数学推理能力，表明以硬件为中心的训练与一般逻辑推理之间存在更广泛的协同作用。

📦 安装指南

文档未提及安装相关内容，故跳过该章节。

💻 使用示例

基础用法

使用 vLLM 启动服务的示例：

vllm serve zhuyaoyu/CodeV-R1-Distill-Qwen-7B --tensor-parallel-size 2 --max-model-len 16384 --enforce-eager

📚 详细文档

模型概述

属性	详情
基础模型	Qwen/Qwen2.5-Coder-7B-Instruct
库名称	transformers
标签	verilog

数据准备

最初，我们使用 Deepseek-v3 对原始 CodeV 数据集中的问题进行重新总结和表述。然后，我们过滤掉那些 Qwen2.5-Coder-7B-Instruct 和 Qwen2.5-Coder-32B-Instruct 在五次尝试内能够解决的简单问题，以及存在不可综合问题的问题。对于剩余的数据，我们使用 DeepSeek-R1 为每个问题生成一个响应。与基准测试问题相比，Rouge-L 分数大于 0.5 的问题也会被过滤掉。经过这些处理后，大约剩下 87,000 个（问题，代码）对。

训练过程

我们使用 LLaMAFactory 对 Qwen2.5-Coder-7B-Instruct 进行监督微调（SFT），使用这 87,000 对精炼后的数据集。训练进行了六个 epoch，学习率为 1e-5，批量大小为 64。

评估结果

在评估阶段，最大生成长度配置为 16,384 个 token。应用了 0.6 的温度设置，每个查询生成 20 个响应以估计 pass@1 分数。

我们的评估涵盖了 Verilog 基准测试，包括 VerilogEval 和 RTLLM。对于 VerilogEval v2，我们研究了规范到 RTL 翻译和代码完成任务中的零样本场景。对于 RTLLM，报告的是版本 1.1 的结果，该版本提供了更广泛的比较分析。此外，我们发现通过 DeepSeek-R1 获得的 Verilog 问题推理过程增强了模型的域外数学能力。

VerilogEval (v2)

模型	模型大小	类型	规范到 RTL	代码完成
GPT-4o	未披露	通用	62.5%	59.0%
GPT-4 Turbo	未披露	通用	61.1%	53.9%
GPT-4	未披露	通用	32.0%	42.3%
Mistral Large	未披露	通用	37.5%	34.0%
Llama3.1	405B	通用	57.2%	56.4%
Llama3.1	70B	通用	42.8%	35.3%
Llama3	70B	通用	43.9%	37.8%
Llama2	70B	通用	5.3%	1.3%
Llama3.1	8B	通用	19.1%	2.6%
CodeLlama	70B	编码	34.9%	37.2%
DeepSeek Coder	33B	编码	21.7%	25.0%
CodeGemma	7B	编码	9.5%	8.3%
DeepSeek Coder	6.7B	编码	29.6%	24.4%
RTL-Coder	6.7B	Verilog RTL	36.8%	35.9%
CodeV-R1-distill (我们的模型)	7B	Verilog RTL	65.4%	65.1%

RTLLM (v1.1)

模型	模型大小	类型	Pass@1
GPT-4o	未披露	通用	33.8%
GPT-3.5 Turbo	未披露	通用	28.3%
Llama3.1	405B	通用	38.9%
Nemotron-4	340B	通用	18.9%
Llama3.1	8B	通用	19.1%
CodeLlama	7B	编码	17.9%
CodeQwen	7B	编码	24.1%
Starcoder2	15B	编码	15.5%
DeepSeek Coder	6.7B	编码	23.1%
DeepSeek-Coder-V2	16B	编码	33.1%
DeepSeek-Coder-V2	236B	编码	34.5%
RTL-Coder	6.7B	Verilog RTL	36.8%
CraftRTL	6.7B	Verilog RTL	53.1%
CodeV-R1-distill (我们的模型)	7B	Verilog RTL	56.2%

数学评估

模型	AIME	Math	AMC	Minerva	奥林匹克基准	平均
Qwen2.5-7b-instruct-1M	11.25%	72.61%	41.11%	25.92%	34.66%	37.11%
Qwen2.5-math-7b-instruct	12.08%	82.25%	49.4%	27.64%	37.31%	41.74%
Qwen2.5-coder-7b-instruct (基线)	5.63%	63.5%	35.62%	21.02%	28.64%	30.88%
CodeV-R1-distill (我们的模型)	11.04%	74.35%	45.86%	25.79%	38.7%	39.15%

🔧 技术细节

文档未提及技术实现细节相关内容，故跳过该章节。

📄 许可证

CodeV-R1-Distill-Qwen-7B 源自 Qwen-2.5 系列，该系列最初根据 Apache 2.0 许可证许可，现在使用由 DeepSeek-R1 整理的 87k 样本进行微调。

引用

@misc{CodeV-R1-Distill-Qwen-7B,
  author = {IPRC-DIP},
  title = {CodeV Model Distilled from DeepSeek-R1},
  url = {https://huggingface.co/zhuyaoyu/CodeV-R1-Distill-Qwen-7B},
  year = {2025}
}