Qwen_Qwen3-8B-GGUF开源模型 - 免费支持兼容llama.cpp实现对话交流

首页

Qwen Qwen3 8B GGUF

由 tensorblock 开发

Qwen3-8B的GGUF格式量化版本，由TensorBlock提供，兼容llama.cpp

大型语言模型开源协议:Apache-2.0 #轻量级量化 #多轮对话优化 #中文优先支持

下载量 452

发布时间 : 4/29/2025

模型简介

本仓库包含Qwen/Qwen3-8B的GGUF格式模型文件，适用于文本生成任务，支持多种量化级别选择

模型特点

多量化级别选择

提供从Q2_K到Q8_0共12种不同量化级别的模型文件，满足不同场景需求

llama.cpp兼容

兼容截至b5214提交的llama.cpp版本，便于本地部署

优化的提示模板

提供标准化的提示模板，便于与模型交互

模型能力

文本生成

对话系统

内容创作

使用案例

内容生成

创意写作

生成故事、诗歌等创意文本内容

技术文档

自动生成技术文档和说明

对话系统

智能助手

构建对话式AI助手

🚀 Qwen/Qwen3-8B - GGUF

本仓库包含 Qwen/Qwen3-8B 的 GGUF 格式模型文件。这些文件由 TensorBlock 提供的机器进行量化，并且与截至提交 b5214 的 llama.cpp 兼容。

反馈与支持：可通过 TensorBlock 的 Twitter/X、Telegram 群组和 Discord 服务器获得。

✨ 主要特性

本项目有以下两个主要项目：

项目名称	项目详情
Awesome MCP Servers	一个全面的模型上下文协议（MCP）服务器集合。 👉 查看项目 👈
TensorBlock Studio	一个轻量级、开放且可扩展的多大语言模型交互工作室。 👉 查看项目 👈

📚 详细文档

提示模板

<|im_start|>system
{system_prompt}<|im_end|>
<|im_start|>user
{prompt}<|im_end|>
<|im_start|>assistant

模型文件规格

文件名	量化类型	文件大小	描述
Qwen3-8B-Q2_K.gguf	Q2_K	3.282 GB	最小，但有显著的质量损失，不建议用于大多数场景
Qwen3-8B-Q3_K_S.gguf	Q3_K_S	3.770 GB	非常小，但有较高的质量损失
Qwen3-8B-Q3_K_M.gguf	Q3_K_M	4.124 GB	非常小，但有较高的质量损失
Qwen3-8B-Q3_K_L.gguf	Q3_K_L	4.431 GB	小，有较大的质量损失
Qwen3-8B-Q4_0.gguf	Q4_0	4.775 GB	旧版；小，有非常高的质量损失，建议使用 Q3_K_M
Qwen3-8B-Q4_K_S.gguf	Q4_K_S	4.802 GB	小，有更大的质量损失
Qwen3-8B-Q4_K_M.gguf	Q4_K_M	5.028 GB	中等，质量平衡，推荐使用
Qwen3-8B-Q5_0.gguf	Q5_0	5.721 GB	旧版；中等，质量平衡，建议使用 Q4_K_M
Qwen3-8B-Q5_K_S.gguf	Q5_K_S	5.721 GB	大，质量损失低，推荐使用
Qwen3-8B-Q5_K_M.gguf	Q5_K_M	5.851 GB	大，质量损失非常低，推荐使用
Qwen3-8B-Q6_K.gguf	Q6_K	6.726 GB	非常大，质量损失极低
Qwen3-8B-Q8_0.gguf	Q8_0	8.710 GB	非常大，质量损失极低，不推荐使用

📦 安装指南

命令行方式

首先，安装 Huggingface 客户端：

pip install -U "huggingface_hub[cli]"

然后，将单个模型文件下载到本地目录：

huggingface-cli download tensorblock/Qwen_Qwen3-8B-GGUF --include "Qwen3-8B-Q2_K.gguf" --local-dir MY_LOCAL_DIR

如果你想按模式（例如 *Q4_K*gguf）下载多个模型文件，可以尝试：

huggingface-cli download tensorblock/Qwen_Qwen3-8B-GGUF --local-dir MY_LOCAL_DIR --local-dir-use-symlinks False --include='*Q4_K*gguf'

📄 许可证

本项目采用 Apache-2.0 许可证。

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

uer

2,694

智启未来，您的人工智能解决方案智库

简体中文