🚀 Kodify-Nano-GGUF 🤖
Kodify-Nano-GGUF 是 MTSAIR/Kodify-Nano 模型的 GGUF 版本,针对使用 Ollama/llama.cpp 进行 CPU/GPU 推理进行了优化。这是一款轻量级的大语言模型(LLM),可在资源需求极低的情况下完成代码开发任务。
🚀 快速开始
使用镜像
你可以通过两种方式在 OLLAMA 上运行 Kodify Nano:
- 使用 Docker
- 本地运行(比 Docker 响应更快)
方法一:在 Docker 中的 OLLAMA 上运行 Kodify Nano
无 NVIDIA GPU 的情况:
docker run -e OLLAMA_HOST=0.0.0.0:8985 -p 8985:8985 --name ollama -d ollama/ollama
有 NVIDIA GPU 的情况:
docker run --runtime nvidia -e OLLAMA_HOST=0.0.0.0:8985 -p 8985:8985 --name ollama -d ollama/ollama
⚠️ 重要提示
- 确保已安装并运行 Docker。
- 如果端口 8985 已被占用,请将其替换为任何可用端口,并更新插件配置。
加载模型:
docker exec ollama ollama pull hf.co/MTSAIR/Kodify-Nano-GGUF
重命名模型:
docker exec ollama ollama cp hf.co/MTSAIR/Kodify-Nano-GGUF kodify_nano
启动模型:
docker exec ollama ollama run kodify_nano
方法二:在 OLLAMA 上本地运行 Kodify Nano
- 下载 OLLAMA:
https://ollama.com/download
- 设置端口:
export OLLAMA_HOST=0.0.0.0:8985
⚠️ 重要提示
如果端口 8985 已被占用,请替换该端口并更新插件配置。
- 启动 OLLAMA 服务器:
ollama serve &
- 下载模型:
ollama pull hf.co/MTSAIR/Kodify-Nano-GGUF
- 重命名模型:
ollama cp hf.co/MTSAIR/Kodify-Nano-GGUF kodify_nano
- 运行模型:
ollama run kodify_nano
📦 安装指南
Visual Studio Code 插件安装
- 下载 最新的 Kodify 插件 用于 VS Code。
- 打开左侧边栏的“扩展”面板。
- 点击“从 VSIX 安装...”,然后选择下载的插件文件。
JetBrains IDEs 插件安装
- 下载 最新的 Kodify 插件 用于 JetBrains。
- 打开 IDE,转到“设置 > 插件”。
- 点击齿轮图标(⚙️),选择“从磁盘安装插件...”。
- 选择下载的插件文件。
- 当提示时重启 IDE。
在插件设置中更改端口(适用于 Visual Studio Code 和 JetBrains)
如果你将 Docker 端口从 8985
更改,请更新插件的 config.json
文件:
- 在 IDE 中打开任意文件。
- 打开 Kodify 侧边栏:
- VS Code:
Ctrl + L
(Mac 上为 Cmd + L
)。
- JetBrains:
Ctrl + J
(Mac 上为 Cmd + J
)。
- 访问
config.json
文件:
- 方法一:点击“打开设置”(VS Code)或“Kodify 配置”(JetBrains),然后导航到“配置 > 聊天设置 > 打开配置文件”。
- 方法二:点击 Kodify 侧边栏中的齿轮图标(⚙️)。
- 修改
tabAutocompleteModel
和 models
下的 apiBase
端口。
- 保存文件(
Ctrl + S
或“文件 > 保存”)。
🔧 技术细节
可用的量化变体
- Kodify_Nano_q4_k_s.gguf(平衡)
- Kodify_Nano_q8_0.gguf(高质量)
- Kodify_Nano.gguf(最佳质量,未量化)
使用 huggingface_hub 下载:
pip install huggingface-hub
python -c "from huggingface_hub import hf_hub_download; hf_hub_download(repo_id='MTSAIR/Kodify-Nano-GGUF', filename='Kodify_Nano_q4_k_s.gguf', local_dir='./models')"
💻 使用示例
基础用法
import ollama
response = ollama.generate(
model="kodify-nano",
prompt="Write a Python function to calculate factorial",
options={
"temperature": 0.4,
"top_p": 0.8,
"num_ctx": 8192
}
)
print(response['response'])
高级用法
response = ollama.generate(
model="kodify-nano",
prompt="""<s>[INST]
Write a Python function that:
1. Accepts a list of numbers
2. Returns the median value
[/INST]""",
options={"max_tokens": 512}
)
response = ollama.generate(
model="kodify-nano",
prompt="""<s>[INST]
Refactor this Python code:
def calc(a,b):
s = a + b
d = a - b
p = a * b
return s, d, p
[/INST]""",
options={"temperature": 0.3}
)
📄 许可证
本项目采用 Apache-2.0 许可证。