模型简介
模型特点
模型能力
使用案例
🚀 Rose 20B - GGUF
本项目提供了 Tav的Rose 20B 模型的GGUF格式文件。这些文件是使用 Massed Compute 提供的硬件进行量化处理的。
🚀 快速开始
本仓库包含了Tav的Rose 20B模型的GGUF格式文件,下面将为你介绍该模型的相关信息,包括格式介绍、可用仓库、提示模板、兼容性、提供的文件、下载方式、运行示例以及使用帮助等内容。
✨ 主要特性
- 多格式支持:提供了多种量化格式的文件,包括不同比特数的GGUF文件,以及AWQ、GPTQ等格式,可满足不同场景的需求。
- 广泛兼容性:与多种客户端和库兼容,如llama.cpp、text-generation-webui、KoboldCpp等,方便用户使用。
- 易于下载:支持多种下载方式,可通过客户端自动下载,也可使用命令行进行手动下载。
📦 安装指南
下载GGUF文件
- 手动下载注意事项:通常不需要克隆整个仓库,因为提供了多种不同的量化格式,大多数用户只需要选择并下载单个文件即可。
- 自动下载客户端:LM Studio、LoLLMS Web UI、Faraday.dev 等客户端会自动为你下载模型,并提供可用模型列表供你选择。
- 在
text-generation-webui
中下载:在“Download Model”下,输入模型仓库地址TheBloke/Rose-20B-GGUF
,并在下方输入要下载的具体文件名,如rose-20b.Q4_K_M.gguf
,然后点击“Download”。 - 命令行下载:推荐使用
huggingface-hub
Python 库。
pip3 install huggingface-hub
然后可以使用以下命令将单个模型文件高速下载到当前目录:
huggingface-cli download TheBloke/Rose-20B-GGUF rose-20b.Q4_K_M.gguf --local-dir . --local-dir-use-symlinks False
你还可以使用通配符一次性下载多个文件:
huggingface-cli download TheBloke/Rose-20B-GGUF --local-dir . --local-dir-use-symlinks False --include='*Q4_K*gguf'
要了解更多关于 huggingface-cli
下载的文档,请参阅:HF -> Hub Python Library -> Download files -> Download from the CLI。
为了在高速连接(1Gbit/s 或更高)上加速下载,请安装 hf_transfer
:
pip3 install hf_transfer
并将环境变量 HF_HUB_ENABLE_HF_TRANSFER
设置为 1
:
HF_HUB_ENABLE_HF_TRANSFER=1 huggingface-cli download TheBloke/Rose-20B-GGUF rose-20b.Q4_K_M.gguf --local-dir . --local-dir-use-symlinks False
Windows 命令行用户可以在下载命令前运行 set HF_HUB_ENABLE_HF_TRANSFER=1
来设置环境变量。
💻 使用示例
在 llama.cpp
中运行示例
确保你使用的是 d0cee0d 或更高版本的 llama.cpp
。
./main -ngl 32 -m rose-20b.Q4_K_M.gguf --color -c 4096 --temp 0.7 --repeat_penalty 1.1 -n -1 -p "Below is an instruction that describes a task. Write a response that appropriately completes the request.\n\n### Instruction:\n{prompt}\n\n### Response:"
-ngl 32
:将其更改为要卸载到GPU的层数。如果你的系统没有GPU加速,请移除该参数。-c 4096
:将其更改为所需的序列长度。对于扩展序列模型(如8K、16K、32K),必要的RoPE缩放参数将从GGUF文件中读取,并由llama.cpp自动设置。 如果你想进行聊天式对话,请将-p <PROMPT>
参数替换为-i -ins
。 有关其他参数及其使用方法,请参阅 llama.cpp文档。
在 text-generation-webui
中运行
更多说明可在 text-generation-webui
文档中找到,地址为:text-generation-webui/docs/04 ‐ Model Tab.md。
在Python代码中使用
你可以使用 llama-cpp-python 或 ctransformers 库从Python代码中使用GGUF模型。
使用 ctransformers
加载模型
首先根据你的系统运行以下命令之一来安装包:
# 无GPU加速的基础ctransformers
pip install ctransformers
# 带有CUDA GPU加速
pip install ctransformers[cuda]
# 带有AMD ROCm GPU加速(仅适用于Linux)
CT_HIPBLAS=1 pip install ctransformers --no-binary ctransformers
# 带有Metal GPU加速(仅适用于macOS系统)
CT_METAL=1 pip install ctransformers --no-binary ctransformers
以下是一个简单的 ctransformers
示例代码:
from ctransformers import AutoModelForCausalLM
# 将gpu_layers设置为要卸载到GPU的层数。如果你的系统没有GPU加速,请将其设置为0。
llm = AutoModelForCausalLM.from_pretrained("TheBloke/Rose-20B-GGUF", model_file="rose-20b.Q4_K_M.gguf", model_type="llama", gpu_layers=50)
print(llm("AI is going to"))
📚 详细文档
关于GGUF
GGUF是llama.cpp团队在2023年8月21日引入的一种新格式,它取代了不再被llama.cpp支持的GGML格式。 以下是已知支持GGUF的客户端和库的不完全列表:
- llama.cpp:GGUF的源项目,提供了CLI和服务器选项。
- text-generation-webui:最广泛使用的Web UI,具有许多功能和强大的扩展,支持GPU加速。
- KoboldCpp:一个功能齐全的Web UI,支持所有平台和GPU架构的GPU加速,特别适合讲故事。
- LM Studio:一个易于使用且功能强大的本地GUI,适用于Windows和macOS(Silicon),支持GPU加速。
- LoLLMS Web UI:一个很棒的Web UI,具有许多有趣和独特的功能,包括一个完整的模型库,方便模型选择。
- Faraday.dev:一个有吸引力且易于使用的基于角色的聊天GUI,适用于Windows和macOS(Silicon和Intel),支持GPU加速。
- ctransformers:一个Python库,支持GPU加速、LangChain和OpenAI兼容的AI服务器。
- llama-cpp-python:一个Python库,支持GPU加速、LangChain和OpenAI兼容的API服务器。
- candle:一个Rust ML框架,注重性能,包括GPU支持,且易于使用。
可用仓库
- 用于GPU推理的AWQ模型
- 用于GPU推理的GPTQ模型,具有多种量化参数选项
- 用于CPU+GPU推理的2、3、4、5、6和8位GGUF模型
- Tav的原始未量化fp16 PyTorch格式模型,用于GPU推理和进一步转换
提示模板:Alpaca
Below is an instruction that describes a task. Write a response that appropriately completes the request.
### Instruction:
{prompt}
### Response:
兼容性
这些量化的GGUFv2文件与2023年8月27日及以后的llama.cpp兼容,对应提交版本为 d0cee0d。 它们也与许多第三方UI和库兼容,请参阅本README顶部的列表。
量化方法说明
点击查看详细信息
新的可用方法如下: - GGML_TYPE_Q2_K:“type-1” 2位量化,超级块包含16个块,每个块有16个权重。块的比例和最小值使用4位量化,最终每个权重有效使用2.5625位(bpw)。 - GGML_TYPE_Q3_K:“type-0” 3位量化,超级块包含16个块,每个块有16个权重。比例使用6位量化,最终使用3.4375 bpw。 - GGML_TYPE_Q4_K:“type-1” 4位量化,超级块包含8个块,每个块有32个权重。比例和最小值使用6位量化,最终使用4.5 bpw。 - GGML_TYPE_Q5_K:“type-1” 5位量化,与GGML_TYPE_Q4_K具有相同的超级块结构,最终使用5.5 bpw。 - GGML_TYPE_Q6_K:“type-0” 6位量化,超级块包含16个块,每个块有16个权重。比例使用8位量化,最终使用6.5625 bpw。 请参考下面的“提供的文件”表,查看哪些文件使用了哪些方法以及如何使用。提供的文件
名称 | 量化方法 | 比特数 | 大小 | 所需最大RAM | 使用场景 |
---|---|---|---|---|---|
rose-20b.Q2_K.gguf | Q2_K | 2 | 8.31 GB | 10.81 GB | 最小,但质量损失显著,不建议用于大多数场景 |
rose-20b.Q3_K_S.gguf | Q3_K_S | 3 | 8.66 GB | 11.16 GB | 非常小,但质量损失高 |
rose-20b.Q3_K_M.gguf | Q3_K_M | 3 | 9.70 GB | 12.20 GB | 非常小,但质量损失高 |
rose-20b.Q3_K_L.gguf | Q3_K_L | 3 | 10.63 GB | 13.13 GB | 小,但质量损失较大 |
rose-20b.Q4_0.gguf | Q4_0 | 4 | 11.29 GB | 13.79 GB | 旧版本;小,但质量损失非常高,建议使用Q3_K_M |
rose-20b.Q4_K_S.gguf | Q4_K_S | 4 | 11.34 GB | 13.84 GB | 小,但质量损失较大 |
rose-20b.Q4_K_M.gguf | Q4_K_M | 4 | 12.04 GB | 14.54 GB | 中等,质量平衡,推荐使用 |
rose-20b.Q5_0.gguf | Q5_0 | 5 | 13.77 GB | 16.27 GB | 旧版本;中等,质量平衡,建议使用Q4_K_M |
rose-20b.Q5_K_S.gguf | Q5_K_S | 5 | 13.77 GB | 16.27 GB | 大,质量损失低,推荐使用 |
rose-20b.Q5_K_M.gguf | Q5_K_M | 5 | 14.16 GB | 16.66 GB | 大,质量损失非常低,推荐使用 |
rose-20b.Q6_K.gguf | Q6_K | 6 | 16.40 GB | 18.90 GB | 非常大,质量损失极低 |
rose-20b.Q8_0.gguf | Q8_0 | 8 | 21.25 GB | 23.75 GB | 非常大,质量损失极低,但不建议使用 |
注意:上述RAM数字假设没有进行GPU卸载。如果将层卸载到GPU,这将减少RAM使用并使用VRAM。
如何使用LangChain
以下是使用 llama-cpp-python
和 ctransformers
与LangChain的指南:
🔧 技术细节
模型配方
slices:
- sources:
- model: Thorns-13B
layer_range: [0, 16]
- sources:
- model: Noromaid-13B
layer_range: [8, 24]
- sources:
- model: Thorns-13B
layer_range: [17, 32]
- sources:
- model: Noromaid-13B
layer_range: [25, 40]
merge_method: passthrough
dtype: float16
再次感谢 Undi 提供的配方。
📄 许可证
本模型使用的许可证为 llama2。
其他信息
Discord
如需进一步支持,以及讨论这些模型和人工智能相关内容,请加入我们的 TheBloke AI的Discord服务器。
感谢与贡献
感谢 chirper.ai 团队!感谢来自 gpus.llm-utils.org 的Clay! 很多人询问是否可以进行贡献。我喜欢提供模型并帮助他人,也希望能有更多时间做这些事情,同时开展新的项目,如微调/训练。 如果你有能力且愿意贡献,我将非常感激,这将帮助我继续提供更多模型,并开展新的人工智能项目。 捐赠者将在所有AI/LLM/模型问题和请求上获得优先支持,访问私人Discord房间,以及其他福利。
- Patreon: https://patreon.com/TheBlokeAI
- Ko-Fi: https://ko-fi.com/TheBlokeAI
特别感谢:Aemon Algiz。
Patreon特别提及:Brandon Frisco, LangChain4j, Spiking Neurons AB, transmissions 11, Joseph William Delisle, Nitin Borwankar, Willem Michiel, Michael Dempsey, vamX, Jeffrey Morgan, zynix, jjj, Omer Bin Jawed, Sean Connelly, jinyuan sun, Jeromy Smith, Shadi, Pawan Osman, Chadd, Elijah Stavena, Illia Dulskyi, Sebastain Graf, Stephen Murray, terasurfer, Edmond Seymore, Celu Ramasamy, Mandus, Alex, biorpg, Ajan Kanaga, Clay Pascal, Raven Klaugh, 阿明, K, ya boyyy, usrbinkat, Alicia Loh, John Villwock, ReadyPlayerEmma, Chris Smitley, Cap'n Zoog, fincy, GodLy, S_X, sidney chen, Cory Kujawski, OG, Mano Prime, AzureBlack, Pieter, Kalila, Spencer Kim, Tom X Nguyen, Stanislav Ovsiannikov, Michael Levine, Andrey, Trailburnt, Vadim, Enrico Ros, Talal Aujan, Brandon Phillips, Jack West, Eugene Pentland, Michael Davis, Will Dee, webtim, Jonathan Leane, Alps Aficionado, Rooh Singh, Tiffany J. Kim, theTransient, Luke @flexchar, Elle, Caitlyn Gatomon, Ari Malik, subjectnull, Johann-Peter Hartmann, Trenton Dambrowitz, Imad Khwaja, Asp the Wyvern, Emad Mostaque, Rainer Wilmers, Alexandros Triantafyllidis, Nicholas, Pedro Madruga, SuperWojo, Harry Royden McLaughlin, James Bentley, Olakabola, David Ziegler, Ai Maven, Jeff Scroggin, Nikolai Manek, Deo Leter, Matthew Berman, Fen Risland, Ken Nordquist, Manuel Alberto Morcote, Luke Pendergrass, TL, Fred von Graf, Randy H, Dan Guido, NimbleBox.ai, Vitor Caleffi, Gabriel Tamborski, knownsqashed, Lone Striker, Erik Bjäreholt, John Detwiler, Leonard Tan, Iucharbius
感谢所有慷慨的赞助者和捐赠者!再次感谢a16z的慷慨资助。
原始模型卡片信息
- 模型创建者:Tav
- 原始模型:Rose 20B
- 模型详情:该模型是 Thorns-13B 和 Noromaid-13-v0.1.1 的混合模型。这个配方由Trappu提出,层分布配方由Undi制作。该模型非常适合角色扮演场景,因其像“带刺的女仆”而被命名为“Rose”。
- 存在理由:有潜力作为微调实验的基础模型,用于创建Pygmalion-20B;也可用于与其他20B混合模型进行实验。
- 模型接收情况:该模型在PygmalionAI Discord社区的少数成员中进行了测试,绝大多数人非常喜欢该模型,只有少数人给予及格评价。考虑到社区对角色扮演模型的高标准,这个积极的反馈令人惊喜。
- 联系信息:如果你想谈论该模型,请在Discord上给tav (tav) 发送消息,我随时欢迎评论。



