StrawberryLemonade-L3-70B-v1.0开源大模型 - 量化处理适配多硬件高效运行

首页

Sophosympatheia StrawberryLemonade L3 70B V1.0 GGUF

由 bartowski 开发

StrawberryLemonade-L3-70B-v1.0 是一个经过量化处理的大型语言模型，旨在在不同硬件条件下高效运行。

大型语言模型英语#70B大模型 #高效量化 #多硬件适配

下载量 1,406

发布时间 : 6/10/2025

模型简介

该模型通过量化处理优化了在不同硬件上的运行效率，提供了多种量化类型以满足不同的性能和质量需求。

模型特点

多种量化类型

提供了从 Q8_0 到 IQ1_M 的多种量化类型，满足不同性能和质量需求。

高效运行

通过量化处理，模型能在不同硬件条件下更高效地运行。

在线重新打包

部分量化类型支持在线重新打包，优化 ARM 和 AVX 机器的性能。

模型能力

文本生成

多轮对话

系统提示支持

使用案例

通用文本生成

对话系统

可用于构建智能对话系统，支持多轮交互。

内容创作

生成高质量文本内容，如文章、故事等。

🚀 StrawberryLemonade-L3-70B-v1.0的Llamacpp imatrix量化版本

本项目是对sophosympatheia的StrawberryLemonade-L3-70B-v1.0模型进行量化处理。通过量化，能在不同硬件条件下更高效地运行该模型，满足多样化的使用需求。

🚀 快速开始

运行方式

LM Studio：可以直接在 LM Studio 中运行量化后的模型。
llama.cpp：也能使用 llama.cpp 或基于 llama.cpp 的其他项目来运行。

下载文件

你可以从下面的表格中选择要下载的文件（不是整个分支）：

文件名	量化类型	文件大小	拆分情况	描述
StrawberryLemonade-L3-70B-v1.0-Q8_0.gguf	Q8_0	74.98GB	true	极高质量，通常不需要，但为最大可用量化。
StrawberryLemonade-L3-70B-v1.0-Q6_K.gguf	Q6_K	57.89GB	true	非常高质量，接近完美，推荐。
StrawberryLemonade-L3-70B-v1.0-Q5_K_M.gguf	Q5_K_M	49.95GB	true	高质量，推荐。
StrawberryLemonade-L3-70B-v1.0-Q5_K_S.gguf	Q5_K_S	48.66GB	false	高质量，推荐。
StrawberryLemonade-L3-70B-v1.0-Q4_1.gguf	Q4_1	44.31GB	false	旧格式，性能与 Q4_K_S 相似，但在 Apple silicon 上每瓦处理的令牌数有所提高。
StrawberryLemonade-L3-70B-v1.0-Q4_K_L.gguf	Q4_K_L	43.30GB	false	嵌入和输出权重使用 Q8_0。质量良好，推荐。
StrawberryLemonade-L3-70B-v1.0-Q4_K_M.gguf	Q4_K_M	42.52GB	false	质量良好，是大多数用例的默认大小，推荐。
StrawberryLemonade-L3-70B-v1.0-Q4_K_S.gguf	Q4_K_S	40.35GB	false	质量略低，但节省更多空间，推荐。
StrawberryLemonade-L3-70B-v1.0-Q4_0.gguf	Q4_0	40.12GB	false	旧格式，可为 ARM 和 AVX CPU 推理提供在线重新打包功能。
StrawberryLemonade-L3-70B-v1.0-IQ4_NL.gguf	IQ4_NL	40.05GB	false	与 IQ4_XS 相似，但略大。可为 ARM CPU 推理提供在线重新打包功能。
StrawberryLemonade-L3-70B-v1.0-Q3_K_XL.gguf	Q3_K_XL	38.06GB	false	嵌入和输出权重使用 Q8_0。质量较低但可用，适合低内存情况。
StrawberryLemonade-L3-70B-v1.0-IQ4_XS.gguf	IQ4_XS	37.90GB	false	质量不错，比 Q4_K_S 小且性能相似，推荐。
StrawberryLemonade-L3-70B-v1.0-Q3_K_L.gguf	Q3_K_L	37.14GB	false	质量较低但可用，适合低内存情况。
StrawberryLemonade-L3-70B-v1.0-Q3_K_M.gguf	Q3_K_M	34.27GB	false	质量低。
StrawberryLemonade-L3-70B-v1.0-IQ3_M.gguf	IQ3_M	31.94GB	false	中低质量，新方法，性能与 Q3_K_M 相当。
StrawberryLemonade-L3-70B-v1.0-Q3_K_S.gguf	Q3_K_S	30.91GB	false	质量低，不推荐。
StrawberryLemonade-L3-70B-v1.0-IQ3_XS.gguf	IQ3_XS	29.31GB	false	质量较低，新方法，性能不错，略优于 Q3_K_S。
StrawberryLemonade-L3-70B-v1.0-IQ3_XXS.gguf	IQ3_XXS	27.47GB	false	质量较低，新方法，性能不错，与 Q3 量化相当。
StrawberryLemonade-L3-70B-v1.0-Q2_K_L.gguf	Q2_K_L	27.40GB	false	嵌入和输出权重使用 Q8_0。质量极低但意外可用。
StrawberryLemonade-L3-70B-v1.0-Q2_K.gguf	Q2_K	26.38GB	false	质量极低但意外可用。
StrawberryLemonade-L3-70B-v1.0-IQ2_M.gguf	IQ2_M	24.12GB	false	质量相对较低，使用了最先进技术，意外可用。
StrawberryLemonade-L3-70B-v1.0-IQ2_S.gguf	IQ2_S	22.24GB	false	质量低，使用了最先进技术，可用。
StrawberryLemonade-L3-70B-v1.0-IQ2_XS.gguf	IQ2_XS	21.14GB	false	质量低，使用了最先进技术，可用。
StrawberryLemonade-L3-70B-v1.0-IQ2_XXS.gguf	IQ2_XXS	19.10GB	false	质量极低，使用了最先进技术，可用。
StrawberryLemonade-L3-70B-v1.0-IQ1_M.gguf	IQ1_M	16.75GB	false	质量极低，不推荐。

✨ 主要特性

量化处理：使用 llama.cpp 的 b5596 版本进行量化。
多种量化类型：提供了丰富的量化类型供选择，以满足不同的性能和质量需求。
在线重新打包：部分量化类型支持在线重新打包，可提高 ARM 和 AVX 机器的性能。

📦 安装指南

安装 huggingface-cli

首先，确保你已经安装了 huggingface-cli：

pip install -U "huggingface_hub[cli]"

下载特定文件

你可以指定要下载的特定文件：

huggingface-cli download bartowski/sophosympatheia_StrawberryLemonade-L3-70B-v1.0-GGUF --include "sophosympatheia_StrawberryLemonade-L3-70B-v1.0-Q4_K_M.gguf" --local-dir ./

下载拆分文件

如果模型大于 50GB，它会被拆分成多个文件。要将它们全部下载到本地文件夹，请运行：

huggingface-cli download bartowski/sophosympatheia_StrawberryLemonade-L3-70B-v1.0-GGUF --include "sophosympatheia_StrawberryLemonade-L3-70B-v1.0-Q8_0/*" --local-dir ./

你可以指定一个新的本地目录（如 sophosympatheia_StrawberryLemonade-L3-70B-v1.0-Q8_0），也可以将它们全部下载到当前目录（./）。

💻 使用示例

提示格式

<|begin_of_text|><|start_header_id|>system<|end_header_id|>

{system_prompt}<|eot_id|><|start_header_id|>user<|end_header_id|>

{prompt}<|eot_id|><|start_header_id|>assistant<|end_header_id|>

📚 详细文档

嵌入/输出权重

部分量化类型（如 Q3_K_XL、Q4_K_L 等）采用标准量化方法，将嵌入和输出权重量化为 Q8_0，而非默认值。

ARM/AVX 信息

以前，你会下载 Q4_0_4_4/4_8/8_8，这些文件的权重会在内存中交错排列，以提高 ARM 和 AVX 机器的性能。现在，有了“在线重新打包”功能，详情见此 PR。如果你使用 Q4_0 且硬件能从重新打包权重中受益，它会自动实时处理。

从 llama.cpp 版本 b4282 开始，你将无法运行 Q4_0_X_X 文件，而需要使用 Q4_0。此外，如果你想获得更好的质量，可以使用 IQ4_NL，见此 PR，它也会为 ARM 重新打包权重，但目前仅支持 4_4。加载时间可能会变慢，但整体速度会提高。

选择合适的文件

点击查看详情

Artefact2 提供了一篇很棒的文章，带有展示各种性能的图表，可点击此处查看。

首先，你需要确定能运行多大的模型。这需要了解你有多少内存（RAM）和/或显存（VRAM）。

追求最快速度：如果你希望模型尽可能快地运行，应将整个模型加载到 GPU 的显存中。选择文件大小比 GPU 总显存小 1 - 2GB 的量化文件。
追求最高质量：如果你追求绝对最高质量，将系统内存和 GPU 显存相加，然后选择文件大小比该总和小 1 - 2GB 的量化文件。

接下来，你需要决定使用“I 量化”还是“K 量化”。

不想过多考虑：选择 K 量化文件，格式为 QX_K_X，如 Q5_K_M。
想深入了解：可以查看这个非常有用的特性图表：llama.cpp 特性矩阵。一般来说，如果你目标是低于 Q4 的量化，并且使用 cuBLAS（Nvidia）或 rocBLAS（AMD），可以考虑 I 量化文件，格式为 IQX_X，如 IQ3_M。这些是较新的量化类型，在相同大小下性能更好。

I 量化文件也可以在 CPU 上使用，但比对应的 K 量化文件慢，因此你需要在速度和性能之间做出权衡。