Kodify-Nano-GGUF开源轻量级大模型 - 优化推理助力代码开发

首页

Kodify Nano GGUF

由 MTSAIR 开发

Kodify-Nano-GGUF 是 Kodify-Nano 模型的 GGUF 版本，针对 CPU/GPU 推理进行了优化，是一款轻量级的大语言模型，适用于代码开发任务。

大型语言模型开源协议:Apache-2.0 #轻量级代码生成 #低资源推理优化 #开发辅助工具

下载量 161

发布时间 : 5/28/2025

模型简介

Kodify-Nano-GGUF 是一款轻量级的大语言模型，专门为代码开发任务设计，可在资源需求极低的情况下高效运行。

模型特点

轻量级设计

模型针对资源需求极低的环境进行了优化，适合在 CPU/GPU 上高效运行。

代码生成与补全

专注于代码开发任务，能够生成和补全代码片段。

多平台支持

支持 Docker 和本地运行，适用于多种开发环境。

模型能力

代码生成

代码补全

代码重构

使用案例

代码开发

生成 Python 函数

根据提示生成 Python 函数代码，如计算阶乘的函数。

生成可运行的 Python 代码片段。

代码重构

对现有代码进行重构，提高代码质量和可读性。

生成优化后的代码片段。

🚀 Kodify-Nano-GGUF 🤖

Kodify-Nano-GGUF 是 MTSAIR/Kodify-Nano 模型的 GGUF 版本，针对使用 Ollama/llama.cpp 进行 CPU/GPU 推理进行了优化。这是一款轻量级的大语言模型（LLM），可在资源需求极低的情况下完成代码开发任务。

🚀 快速开始

使用镜像

你可以通过两种方式在 OLLAMA 上运行 Kodify Nano：

使用 Docker
本地运行（比 Docker 响应更快）

方法一：在 Docker 中的 OLLAMA 上运行 Kodify Nano

无 NVIDIA GPU 的情况：

docker run -e OLLAMA_HOST=0.0.0.0:8985 -p 8985:8985 --name ollama -d ollama/ollama

有 NVIDIA GPU 的情况：

docker run --runtime nvidia -e OLLAMA_HOST=0.0.0.0:8985 -p 8985:8985 --name ollama -d ollama/ollama

⚠️ 重要提示

确保已安装并运行 Docker。

如果端口 8985 已被占用，请将其替换为任何可用端口，并更新插件配置。

加载模型：

docker exec ollama ollama pull hf.co/MTSAIR/Kodify-Nano-GGUF

重命名模型：

docker exec ollama ollama cp hf.co/MTSAIR/Kodify-Nano-GGUF kodify_nano

启动模型：

docker exec ollama ollama run kodify_nano

方法二：在 OLLAMA 上本地运行 Kodify Nano

下载 OLLAMA：
https://ollama.com/download
设置端口：

export OLLAMA_HOST=0.0.0.0:8985

⚠️ 重要提示

如果端口 8985 已被占用，请替换该端口并更新插件配置。

启动 OLLAMA 服务器：

ollama serve &

下载模型：

ollama pull hf.co/MTSAIR/Kodify-Nano-GGUF

重命名模型：

ollama cp hf.co/MTSAIR/Kodify-Nano-GGUF kodify_nano

运行模型：

ollama run kodify_nano

📦 安装指南

Visual Studio Code 插件安装

下载最新的 Kodify 插件用于 VS Code。
打开左侧边栏的“扩展”面板。
点击“从 VSIX 安装...”，然后选择下载的插件文件。

JetBrains IDEs 插件安装

下载最新的 Kodify 插件用于 JetBrains。
打开 IDE，转到“设置 > 插件”。
点击齿轮图标（⚙️），选择“从磁盘安装插件...”。
选择下载的插件文件。
当提示时重启 IDE。

在插件设置中更改端口（适用于 Visual Studio Code 和 JetBrains）

如果你将 Docker 端口从 8985 更改，请更新插件的 config.json 文件：

在 IDE 中打开任意文件。
打开 Kodify 侧边栏：
- VS Code：Ctrl + L（Mac 上为 Cmd + L）。
- JetBrains：Ctrl + J（Mac 上为 Cmd + J）。
访问 config.json 文件：
- 方法一：点击“打开设置”（VS Code）或“Kodify 配置”（JetBrains），然后导航到“配置 > 聊天设置 > 打开配置文件”。
- 方法二：点击 Kodify 侧边栏中的齿轮图标（⚙️）。
修改 tabAutocompleteModel 和 models 下的 apiBase 端口。
保存文件（Ctrl + S 或“文件 > 保存”）。

🔧 技术细节

可用的量化变体

Kodify_Nano_q4_k_s.gguf（平衡）
Kodify_Nano_q8_0.gguf（高质量）
Kodify_Nano.gguf（最佳质量，未量化）

使用 huggingface_hub 下载：

pip install huggingface-hub
python -c "from huggingface_hub import hf_hub_download; hf_hub_download(repo_id='MTSAIR/Kodify-Nano-GGUF', filename='Kodify_Nano_q4_k_s.gguf', local_dir='./models')"

💻 使用示例

基础用法

import ollama

response = ollama.generate(
    model="kodify-nano",
    prompt="Write a Python function to calculate factorial",
    options={
        "temperature": 0.4,
        "top_p": 0.8,
        "num_ctx": 8192
    }
)

print(response['response'])

高级用法

response = ollama.generate(
    model="kodify-nano",
    prompt="""<s>[INST] 
Write a Python function that:
1. Accepts a list of numbers
2. Returns the median value
[/INST]""",
    options={"max_tokens": 512}
)

### 代码重构
response = ollama.generate(
    model="kodify-nano",
    prompt="""<s>[INST] 
Refactor this Python code:

def calc(a,b):
    s = a + b
    d = a - b
    p = a * b
    return s, d, p
[/INST]""",
    options={"temperature": 0.3}
)