gemma-3-12b-it-Q5_K_M-GGUF开源模型 - 适配llama.cpp框架免费部署使用

首页

Gemma 3 12b It Q5 K M GGUF

由 NikolayKozloff 开发

这是由google/gemma-3-12b-it转换而来的GGUF格式模型，适用于llama.cpp框架。

大型语言模型 #量化高效推理 #多轮对话优化 #轻量级部署

下载量 46

发布时间 : 3/12/2025

模型简介

基于Google Gemma 3.12B指令调优模型转换的GGUF格式版本，主要用于文本生成任务。

模型特点

GGUF格式支持

转换为GGUF格式，便于在llama.cpp生态系统中使用

量化版本

提供Q5_K_M量化级别，平衡模型精度和推理效率

指令调优

基于指令调优版本，更适合对话和指令跟随任务

模型能力

文本生成

对话系统

指令跟随

使用案例

对话系统

开放域对话

可用于构建聊天机器人进行开放域对话

内容生成

创意写作

辅助进行故事创作、诗歌写作等创意文本生成

🚀 NikolayKozloff/gemma-3-12b-it-Q5_K_M-GGUF

本项目将模型从 google/gemma-3-12b-it 转换为 GGUF 格式。借助 llama.cpp 并通过 ggml.ai 的 GGUF-my-repo 空间完成转换。如需了解该模型的更多详细信息，请参考原始模型卡片。

🚀 快速开始

访问 Gemma 模型

要在 Hugging Face 上访问 Gemma 模型，你需要查看并同意 Google 的使用许可。请确保你已登录 Hugging Face，然后点击下方按钮进行操作，请求将立即处理。

模型基本信息

属性	详情
基础模型	google/gemma-3-12b-it
库名称	transformers
许可证	gemma
任务类型	图像文本转文本
标签	llama-cpp, gguf-my-repo

📦 安装指南

可通过 brew（适用于 Mac 和 Linux）安装 llama.cpp：

brew install llama.cpp

💻 使用示例

基础用法

使用 CLI 调用

llama-cli --hf-repo NikolayKozloff/gemma-3-12b-it-Q5_K_M-GGUF --hf-file gemma-3-12b-it-q5_k_m.gguf -p "The meaning to life and the universe is"

使用 Server 调用

llama-server --hf-repo NikolayKozloff/gemma-3-12b-it-Q5_K_M-GGUF --hf-file gemma-3-12b-it-q5_k_m.gguf -c 2048

高级用法

你也可以直接按照 Llama.cpp 仓库中列出的使用步骤使用该检查点。

步骤 1：从 GitHub 克隆 llama.cpp

git clone https://github.com/ggerganov/llama.cpp

步骤 2：进入 llama.cpp 文件夹并使用 `LLAMA_CURL=1` 标志以及其他特定硬件标志（例如，在 Linux 上使用 Nvidia GPU 时使用 `LLAMA_CUDA=1`）进行编译

cd llama.cpp && LLAMA_CURL=1 make

步骤 3：通过主二进制文件运行推理

./llama-cli --hf-repo NikolayKozloff/gemma-3-12b-it-Q5_K_M-GGUF --hf-file gemma-3-12b-it-q5_k_m.gguf -p "The meaning to life and the universe is"

或者

./llama-server --hf-repo NikolayKozloff/gemma-3-12b-it-Q5_K_M-GGUF --hf-file gemma-3-12b-it-q5_k_m.gguf -c 2048

📄 许可证

该模型遵循 gemma 许可证。要在 Hugging Face 上访问 Gemma 模型，你需要查看并同意 Google 的使用许可。点击下方按钮，确认许可：确认许可

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

uer

2,694

智启未来，您的人工智能解决方案智库

简体中文

Gemma 3 12b It Q5 K M GGUF

模型简介

模型特点

模型能力

使用案例

🚀 NikolayKozloff/gemma-3-12b-it-Q5_K_M-GGUF

🚀 快速开始

访问 Gemma 模型

模型基本信息

📦 安装指南

💻 使用示例

基础用法

使用 CLI 调用

使用 Server 调用

高级用法

步骤 1：从 GitHub 克隆 llama.cpp

步骤 2：进入 llama.cpp 文件夹并使用 LLAMA_CURL=1 标志以及其他特定硬件标志（例如，在 Linux 上使用 Nvidia GPU 时使用 LLAMA_CUDA=1）进行编译

步骤 3：通过主二进制文件运行推理

📄 许可证

步骤 2：进入 llama.cpp 文件夹并使用 `LLAMA_CURL=1` 标志以及其他特定硬件标志（例如，在 Linux 上使用 Nvidia GPU 时使用 `LLAMA_CUDA=1`）进行编译