ddh0_Cassiopeia-70B-GGUF开源模型 - 减少存储、提速推理，实用价值高！

首页

Ddh0 Cassiopeia 70B GGUF

由 bartowski 开发

这是对ddh0/Cassiopeia-70B模型进行量化处理后的版本，通过量化技术减少模型存储空间并提升推理速度。

大型语言模型 #70B大模型量化 #多级量化选择 #在线重打包优化

下载量 167

发布时间 : 7/18/2025

模型简介

Cassiopeia-70B的量化版本，支持多种量化类型，适用于高效推理和资源受限环境。

模型特点

多量化类型支持

提供多种量化类型选择，如Q8_0、Q6_K、Q5_K_M等，满足不同场景需求。

在线重打包功能

部分量化类型支持在线重打包，可根据硬件情况自动优化性能。

I-quant和K-quant可选

用户可根据需求选择不同的量化格式，K-quant适用于一般场景，I-quant在特定条件下性能更优。

高效推理

通过量化技术显著减少模型存储空间并提升推理速度。

模型能力

文本生成

高效推理

多量化选择

使用案例

高效推理

本地模型运行

使用LM Studio或llama.cpp在本地高效运行量化模型。

减少存储空间并提升推理速度

资源受限环境

低内存设备运行

在内存有限的设备上运行低量化版本模型。

在保持一定质量的同时减少内存占用

🚀 ddh0的Cassiopeia-70B的Llamacpp imatrix量化版本

本项目是对ddh0/Cassiopeia-70B模型进行量化处理后的成果。借助量化技术，能够在减少模型存储空间的同时，提升推理速度，从而更高效地利用计算资源。

🚀 快速开始

运行环境

你可以在以下环境中运行这些量化模型：

LM Studio：一款便捷的本地模型运行工具，可在此处下载使用。
llama.cpp：基于llama.cpp项目，可直接运行模型，项目地址为https://github.com/ggerganov/llama.cpp ，也可使用其他基于llama.cpp的项目。

提示格式

<|begin_of_text|><|start_header_id|>system<|end_header_id|>

Cutting Knowledge Date: December 2023
Today Date: 26 Jul 2024

{system_prompt}<|eot_id|><|start_header_id|>user<|end_header_id|>

{prompt}<|eot_id|><|start_header_id|>assistant<|end_header_id|>

✨ 主要特性

多量化类型支持：提供了丰富的量化类型供选择，如Q8_0、Q6_K、Q5_K_M等，满足不同场景下对模型质量和文件大小的需求。
在线重打包功能：部分量化类型支持在线重打包，可根据硬件情况自动优化性能，如Q4_0。
I-quant和K-quant可选：用户可根据自身需求选择不同的量化格式，K-quant适用于一般场景，I-quant在特定条件下性能更优。

📦 安装指南

使用huggingface-cli下载

首先，确保你已安装huggingface-cli：

pip install -U "huggingface_hub[cli]"

然后，根据需求下载特定文件：

下载单个文件：

huggingface-cli download bartowski/ddh0_Cassiopeia-70B-GGUF --include "ddh0_Cassiopeia-70B-Q4_K_M.gguf" --local-dir ./

下载大于50GB的分割模型文件：

huggingface-cli download bartowski/ddh0_Cassiopeia-70B-GGUF --include "ddh0_Cassiopeia-70B-Q8_0/*" --local-dir ./

你可以指定新的本地目录，也可以将文件下载到当前目录。

💻 使用示例

下载文件

根据自身需求从以下列表中选择合适的文件进行下载：

文件名	量化类型	文件大小	分割情况	描述
Cassiopeia-70B-Q8_0.gguf	Q8_0	74.98GB	true	极高质量，通常无需使用，但为可用的最高量化级别。
Cassiopeia-70B-Q6_K.gguf	Q6_K	57.89GB	true	非常高的质量，接近完美，推荐使用。
Cassiopeia-70B-Q5_K_M.gguf	Q5_K_M	49.95GB	true	高质量，推荐使用。
Cassiopeia-70B-Q5_K_S.gguf	Q5_K_S	48.66GB	false	高质量，推荐使用。
Cassiopeia-70B-Q4_1.gguf	Q4_1	44.31GB	false	旧格式，性能与Q4_K_S相似，但在Apple硅芯片上的每瓦令牌数有所提高。
Cassiopeia-70B-Q4_K_L.gguf	Q4_K_L	43.30GB	false	嵌入和输出权重使用Q8_0。质量良好，推荐使用。
Cassiopeia-70B-Q4_K_M.gguf	Q4_K_M	42.52GB	false	质量良好，是大多数用例的默认大小，推荐使用。
Cassiopeia-70B-Q4_K_S.gguf	Q4_K_S	40.35GB	false	质量稍低，但节省更多空间，推荐使用。
Cassiopeia-70B-Q4_0.gguf	Q4_0	40.12GB	false	旧格式，支持为ARM和AVX CPU推理进行在线重新打包。
Cassiopeia-70B-IQ4_NL.gguf	IQ4_NL	40.05GB	false	与IQ4_XS相似，但稍大。支持为ARM CPU推理进行在线重新打包。
Cassiopeia-70B-Q3_K_XL.gguf	Q3_K_XL	38.06GB	false	嵌入和输出权重使用Q8_0。质量较低但可用，适合低内存情况。
Cassiopeia-70B-IQ4_XS.gguf	IQ4_XS	37.90GB	false	质量不错，比Q4_K_S小，性能相似，推荐使用。
Cassiopeia-70B-Q3_K_L.gguf	Q3_K_L	37.14GB	false	质量较低但可用，适合低内存情况。
Cassiopeia-70B-Q3_K_M.gguf	Q3_K_M	34.27GB	false	低质量。
Cassiopeia-70B-IQ3_M.gguf	IQ3_M	31.94GB	false	中低质量，新方法，性能与Q3_K_M相当。
Cassiopeia-70B-Q3_K_S.gguf	Q3_K_S	30.91GB	false	低质量，不推荐使用。
Cassiopeia-70B-IQ3_XS.gguf	IQ3_XS	29.31GB	false	质量较低，新方法，性能不错，略优于Q3_K_S。
Cassiopeia-70B-IQ3_XXS.gguf	IQ3_XXS	27.47GB	false	质量较低，新方法，性能不错，与Q3量化相当。
Cassiopeia-70B-Q2_K_L.gguf	Q2_K_L	27.40GB	false	嵌入和输出权重使用Q8_0。质量非常低，但出人意料地可用。
Cassiopeia-70B-Q2_K.gguf	Q2_K	26.38GB	false	质量非常低，但出人意料地可用。
Cassiopeia-70B-IQ2_M.gguf	IQ2_M	24.12GB	false	质量相对较低，使用最先进的技术，出人意料地可用。
Cassiopeia-70B-IQ2_S.gguf	IQ2_S	22.24GB	false	质量较低，使用最先进的技术，可用。
Cassiopeia-70B-IQ2_XS.gguf	IQ2_XS	21.14GB	false	质量较低，使用最先进的技术，可用。
Cassiopeia-70B-IQ2_XXS.gguf	IQ2_XXS	19.10GB	false	质量非常低，使用最先进的技术，可用。
Cassiopeia-70B-IQ1_M.gguf	IQ1_M	16.75GB	false	质量极低，不推荐使用。