writing-roleplay-20k-context-nemo-12b-v1.0-GGUF开源模型

首页

Writing Roleplay 20k Context Nemo 12b V1.0 GGUF

由 bartowski 开发

这是一个基于Nemo架构的12B参数大语言模型，专门针对写作和角色扮演场景优化，支持20k上下文长度。

大型语言模型 #长文本角色扮演 #高上下文窗口 #创意写作生成

下载量 8,298

发布时间 : 10/14/2024

模型简介

该模型专注于文本生成任务，特别适合创意写作和角色扮演场景，具有长上下文处理能力。

模型特点

长上下文支持

支持20k tokens的长上下文处理能力，适合需要记忆大量对话或文本的场景。

角色扮演优化

专门针对角色扮演场景进行优化，能够生成连贯的角色对话和情节发展。

多重量化版本

提供从F16到Q2_K的多种量化版本，满足不同硬件条件下的推理需求。

模型能力

文本生成

角色扮演对话

创意写作

长文本连贯性保持

使用案例

创意写作

小说创作

辅助作家生成小说情节和对话

可生成连贯的长篇叙事内容

游戏开发

NPC对话生成

为游戏中的非玩家角色生成动态对话

创造更真实的游戏互动体验

🚀 writing-roleplay-20k-context-nemo-12b-v1.0的Llamacpp imatrix量化版本

本项目提供了writing-roleplay-20k-context-nemo-12b-v1.0模型的量化版本，使用特定工具和数据集进行量化，方便不同硬件条件下的使用。

🚀 快速开始

本项目使用 llama.cpp 的 b3901 版本进行量化。原始模型地址：https://huggingface.co/openerotica/writing-roleplay-20k-context-nemo-12b-v1.0 所有量化版本均使用imatrix选项，并采用来自此处的数据集。你可以在 LM Studio 中运行这些量化模型。

✨ 主要特性

提示格式

未找到提示格式，请查看原始模型页面。

量化文件选择

提供了多种量化类型的文件供选择，每种文件在质量、大小和性能上有所不同，可根据自身硬件条件（如RAM、VRAM）和需求进行选择。

嵌入/输出权重

部分量化版本（如Q3_K_XL、Q4_K_L等）采用了特殊的量化方法，将嵌入和输出权重量化为Q8_0，而非默认值。有人认为这能提高质量，也有人认为无明显差异，欢迎使用这些模型的用户分享使用反馈。

ARM芯片优化

Q4_0_X_X量化版本专为ARM芯片优化，在ARM芯片上使用可显著提升速度。可参考 AArch64 SoC特性来选择适合自己ARM芯片的量化版本。

📦 安装指南

安装huggingface-cli

首先，确保你已安装huggingface-cli：

pip install -U "huggingface_hub[cli]"

下载特定文件

你可以指定下载特定的文件，例如：

huggingface-cli download bartowski/writing-roleplay-20k-context-nemo-12b-v1.0-GGUF --include "writing-roleplay-20k-context-nemo-12b-v1.0-Q4_K_M.gguf" --local-dir ./

下载拆分文件

如果模型大于50GB，会被拆分为多个文件。若要将所有拆分文件下载到本地文件夹，可运行：

huggingface-cli download bartowski/writing-roleplay-20k-context-nemo-12b-v1.0-GGUF --include "writing-roleplay-20k-context-nemo-12b-v1.0-Q8_0/*" --local-dir ./

你可以指定新的本地目录，也可以将文件下载到当前目录（./）。

💻 使用示例

基础用法

在LM Studio中运行量化模型，可直接加载对应的量化文件。

高级用法

根据自身硬件条件和需求选择合适的量化文件。例如，若想让模型尽可能快地运行，应选择文件大小比GPU总VRAM小1 - 2GB的量化版本；若追求最高质量，可将系统RAM和GPU的VRAM相加，选择比该总和小1 - 2GB的量化版本。

📚 详细文档

量化文件列表

文件名	量化类型	文件大小	拆分情况	描述
writing-roleplay-20k-context-nemo-12b-v1.0-f16.gguf	f16	24.50GB	false	完整的F16权重。
writing-roleplay-20k-context-nemo-12b-v1.0-Q8_0.gguf	Q8_0	13.02GB	false	极高质量，通常不需要，但为最大可用量化。
writing-roleplay-20k-context-nemo-12b-v1.0-Q6_K_L.gguf	Q6_K_L	10.38GB	false	对嵌入和输出权重使用Q8_0。非常高质量，接近完美，推荐。
writing-roleplay-20k-context-nemo-12b-v1.0-Q6_K.gguf	Q6_K	10.06GB	false	非常高质量，接近完美，推荐。
writing-roleplay-20k-context-nemo-12b-v1.0-Q5_K_L.gguf	Q5_K_L	9.14GB	false	对嵌入和输出权重使用Q8_0。高质量，推荐。
writing-roleplay-20k-context-nemo-12b-v1.0-Q5_K_M.gguf	Q5_K_M	8.73GB	false	高质量，推荐。
writing-roleplay-20k-context-nemo-12b-v1.0-Q5_K_S.gguf	Q5_K_S	8.52GB	false	高质量，推荐。
writing-roleplay-20k-context-nemo-12b-v1.0-Q4_K_L.gguf	Q4_K_L	7.98GB	false	对嵌入和输出权重使用Q8_0。质量良好，推荐。
writing-roleplay-20k-context-nemo-12b-v1.0-Q4_K_M.gguf	Q4_K_M	7.48GB	false	质量良好，大多数使用场景的默认大小，推荐。
writing-roleplay-20k-context-nemo-12b-v1.0-Q3_K_XL.gguf	Q3_K_XL	7.15GB	false	对嵌入和输出权重使用Q8_0。质量较低但可用，适合低RAM情况。
writing-roleplay-20k-context-nemo-12b-v1.0-Q4_K_S.gguf	Q4_K_S	7.12GB	false	质量稍低但节省空间，推荐。
writing-roleplay-20k-context-nemo-12b-v1.0-Q4_0.gguf	Q4_0	7.09GB	false	旧格式，通常在类似大小的格式中不值得使用
writing-roleplay-20k-context-nemo-12b-v1.0-Q4_0_8_8.gguf	Q4_0_8_8	7.07GB	false	针对ARM推理优化。需要'sve'支持（见下面的链接）。不要在Mac或Windows上使用。
writing-roleplay-20k-context-nemo-12b-v1.0-Q4_0_4_8.gguf	Q4_0_4_8	7.07GB	false	针对ARM推理优化。需要'i8mm'支持（见下面的链接）。不要在Mac或Windows上使用。
writing-roleplay-20k-context-nemo-12b-v1.0-Q4_0_4_4.gguf	Q4_0_4_4	7.07GB	false	针对ARM推理优化。应该在所有ARM芯片上都能良好工作，如果你不确定可以选择这个。不要在Mac或Windows上使用。
writing-roleplay-20k-context-nemo-12b-v1.0-IQ4_XS.gguf	IQ4_XS	6.74GB	false	质量不错，比Q4_K_S小且性能相似，推荐。
writing-roleplay-20k-context-nemo-12b-v1.0-Q3_K_L.gguf	Q3_K_L	6.56GB	false	质量较低但可用，适合低RAM情况。
writing-roleplay-20k-context-nemo-12b-v1.0-Q3_K_M.gguf	Q3_K_M	6.08GB	false	低质量。
writing-roleplay-20k-context-nemo-12b-v1.0-IQ3_M.gguf	IQ3_M	5.72GB	false	中低质量，新方法，性能与Q3_K_M相当。
writing-roleplay-20k-context-nemo-12b-v1.0-Q3_K_S.gguf	Q3_K_S	5.53GB	false	低质量，不推荐。
writing-roleplay-20k-context-nemo-12b-v1.0-Q2_K_L.gguf	Q2_K_L	5.45GB	false	对嵌入和输出权重使用Q8_0。质量非常低但出人意料地可用。
writing-roleplay-20k-context-nemo-12b-v1.0-IQ3_XS.gguf	IQ3_XS	5.31GB	false	质量较低，新方法，性能不错，略优于Q3_K_S。
writing-roleplay-20k-context-nemo-12b-v1.0-Q2_K.gguf	Q2_K	4.79GB	false	质量非常低但出人意料地可用。
writing-roleplay-20k-context-nemo-12b-v1.0-IQ2_M.gguf	IQ2_M	4.44GB	false	质量相对较低，使用了最先进的技术，出人意料地可用。
writing-roleplay-20k-context-nemo-12b-v1.0-IQ2_S.gguf	IQ2_S	4.14GB	false	低质量，使用了最先进的技术，可用。

选择合适的文件

可参考Artefact2提供的详细分析，其中包含各种性能图表。

选择文件时，首先要确定自己能运行多大的模型，这需要了解自己的RAM和/或VRAM容量。若追求最快运行速度，应选择文件大小比GPU总VRAM小1 - 2GB的量化版本；若追求最高质量，可将系统RAM和GPU的VRAM相加，选择比该总和小1 - 2GB的量化版本。

此外，还需决定使用'I-quant'还是'K-quant'。若不想过多思考，可选择K-quant，格式为'QX_K_X'，如Q5_K_M；若想深入了解，可查看 llama.cpp特性矩阵。一般来说，若目标是低于Q4的量化，且使用cuBLAS（Nvidia）或rocBLAS（AMD），可考虑I-quant，格式为IQX_X，如IQ3_M，这些较新的量化方法在相同大小下性能更好。

需注意，I-quant与Vulcan不兼容（Vulcan也是AMD的），若使用AMD显卡，需确认使用的是rocBLAS版本还是Vulcan版本。目前，LM Studio有支持ROCm的预览版，其他推理引擎也有针对ROCm的特定版本。