Dolphin3.0-Llama3.2-1B-GGUF开源模型 - 多量化版本支持文本生成任务

首页

Dolphin3.0 Llama3.2 1B GGUF

由 bartowski 开发

基于Llama3.2架构的1B参数量化模型，支持文本生成任务，适用于多种量化版本选择

大型语言模型英语#多任务文本生成 #高效量化部署 #代码与数学推理

下载量 1,134

发布时间 : 1/5/2025

模型简介

这是一个经过量化的文本生成模型，基于cognitivecomputations/Dolphin3.0-Llama3.2-1B模型，使用llama.cpp工具进行量化处理。模型支持多种量化级别，适用于不同硬件环境。

模型特点

多种量化版本

提供从F32到Q2_K的多种量化版本，满足不同硬件和性能需求

imatrix量化

使用llama.cpp的imatrix选项进行量化，提高量化质量

ARM/AVX优化

支持ARM和AVX CPU的在线重打包功能，优化推理性能

嵌入/输出权重优化

部分量化版本对嵌入和输出权重使用Q8_0量化，提高模型质量

模型能力

文本生成

指令跟随

代码生成

数学问题解答

使用案例

编程辅助

代码生成

根据自然语言描述生成代码片段

代码反馈

提供代码改进建议和反馈

教育

数学问题解答

解答数学应用题和计算问题

通用AI助手

对话交互

作为智能助手进行自然语言对话

🚀 Dolphin3.0-Llama3.2-1B的Llamacpp imatrix量化模型

本项目基于llama.cpp对Dolphin3.0-Llama3.2-1B模型进行量化处理，提供多种量化类型的模型文件，可在LM Studio中运行。这些量化模型能在不同硬件条件下平衡性能与质量，满足多样化的使用需求。

模型信息

属性	详情
量化者	bartowski
任务类型	文本生成
基础模型	cognitivecomputations/Dolphin3.0-Llama3.2-1B
许可证	llama3.2
训练数据集	OpenCoder-LLM/opc-sft-stage1、OpenCoder-LLM/opc-sft-stage2、microsoft/orca-agentinstruct-1M-v1等

🚀 快速开始

使用 llama.cpp 的 b4418 版本进行量化。所有量化模型均使用 imatrix 选项，并采用此处的数据集。你可以在 LM Studio 中运行这些模型。

提示词格式

<|im_start|>system
{system_prompt}<|im_end|>
<|im_start|>user
{prompt}<|im_end|>
<|im_start|>assistant

📦 安装指南

使用huggingface-cli下载

首先，确保你已安装huggingface-cli：

pip install -U "huggingface_hub[cli]"

然后，你可以指定要下载的特定文件：

huggingface-cli download bartowski/Dolphin3.0-Llama3.2-1B-GGUF --include "Dolphin3.0-Llama3.2-1B-Q4_K_M.gguf" --local-dir ./

如果模型大小超过50GB，它将被拆分为多个文件。若要将它们全部下载到本地文件夹，请运行：

huggingface-cli download bartowski/Dolphin3.0-Llama3.2-1B-GGUF --include "Dolphin3.0-Llama3.2-1B-Q8_0/*" --local-dir ./

你可以指定一个新的本地目录（如Dolphin3.0-Llama3.2-1B-Q8_0），也可以将它们全部下载到当前目录（./）。

💻 使用示例

下载文件

从以下列表中选择并下载文件（非整个分支）：

文件名	量化类型	文件大小	拆分情况	描述
Dolphin3.0-Llama3.2-1B-f32.gguf	f32	4.95GB	否	完整的F32权重。
Dolphin3.0-Llama3.2-1B-f16.gguf	f16	2.48GB	否	完整的F16权重。
Dolphin3.0-Llama3.2-1B-Q8_0.gguf	Q8_0	1.32GB	否	极高质量，通常不需要，但为最大可用量化。
Dolphin3.0-Llama3.2-1B-Q6_K_L.gguf	Q6_K_L	1.09GB	否	嵌入和输出权重使用Q8_0。非常高质量，接近完美，推荐。
Dolphin3.0-Llama3.2-1B-Q6_K.gguf	Q6_K	1.02GB	否	非常高质量，接近完美，推荐。
Dolphin3.0-Llama3.2-1B-Q5_K_L.gguf	Q5_K_L	0.98GB	否	嵌入和输出权重使用Q8_0。高质量，推荐。
Dolphin3.0-Llama3.2-1B-Q5_K_M.gguf	Q5_K_M	0.91GB	否	高质量，推荐。
Dolphin3.0-Llama3.2-1B-Q5_K_S.gguf	Q5_K_S	0.89GB	否	高质量，推荐。
Dolphin3.0-Llama3.2-1B-Q4_K_L.gguf	Q4_K_L	0.87GB	否	嵌入和输出权重使用Q8_0。质量良好，推荐。
Dolphin3.0-Llama3.2-1B-Q4_1.gguf	Q4_1	0.83GB	否	旧格式，性能与Q4_K_S相似，但在苹果硅芯片上每瓦令牌数有所提高。
Dolphin3.0-Llama3.2-1B-Q4_K_M.gguf	Q4_K_M	0.81GB	否	质量良好，大多数用例的默认大小，推荐。
Dolphin3.0-Llama3.2-1B-Q3_K_XL.gguf	Q3_K_XL	0.80GB	否	嵌入和输出权重使用Q8_0。质量较低但可用，适合低内存情况。
Dolphin3.0-Llama3.2-1B-Q4_K_S.gguf	Q4_K_S	0.78GB	否	质量略低，但节省空间，推荐。
Dolphin3.0-Llama3.2-1B-Q4_0.gguf	Q4_0	0.77GB	否	旧格式，可为ARM和AVX CPU推理提供在线重新打包。
Dolphin3.0-Llama3.2-1B-IQ4_NL.gguf	IQ4_NL	0.77GB	否	类似于IQ4_XS，但略大。可为ARM CPU推理提供在线重新打包。
Dolphin3.0-Llama3.2-1B-IQ4_XS.gguf	IQ4_XS	0.74GB	否	质量不错，比Q4_K_S小，性能相似，推荐。
Dolphin3.0-Llama3.2-1B-Q3_K_L.gguf	Q3_K_L	0.73GB	否	质量较低但可用，适合低内存情况。
Dolphin3.0-Llama3.2-1B-Q3_K_M.gguf	Q3_K_M	0.69GB	否	质量低。
Dolphin3.0-Llama3.2-1B-IQ3_M.gguf	IQ3_M	0.66GB	否	中低质量，新方法，性能与Q3_K_M相当。
Dolphin3.0-Llama3.2-1B-Q3_K_S.gguf	Q3_K_S	0.64GB	否	质量低，不推荐。
Dolphin3.0-Llama3.2-1B-Q2_K_L.gguf	Q2_K_L	0.64GB	否	嵌入和输出权重使用Q8_0。质量非常低，但出人意料地可用。
Dolphin3.0-Llama3.2-1B-IQ3_XS.gguf	IQ3_XS	0.62GB	否	质量较低，新方法，性能不错，略优于Q3_K_S。
Dolphin3.0-Llama3.2-1B-Q2_K.gguf	Q2_K	0.58GB	否	质量非常低，但出人意料地可用。
Dolphin3.0-Llama3.2-1B-IQ2_M.gguf	IQ2_M	0.52GB	否	质量相对较低，使用最先进技术，出人意料地可用。