base_model: Kooten/DaringMaid-20B
inference: false
language:
DaringMaid 20B - GGUF
模型描述
本仓库包含Kooten的DaringMaid 20B的GGUF格式模型文件。
这些量化文件由Massed Compute慷慨提供的硬件完成。
关于GGUF
GGUF是llama.cpp团队于2023年8月21日引入的新格式。它是GGML的替代品,后者已不再受llama.cpp支持。
以下是已知支持GGUF的客户端和库的不完整列表:
- llama.cpp。GGUF的源项目。提供CLI和服务器选项。
- text-generation-webui,最广泛使用的Web UI,具有许多功能和强大的扩展。支持GPU加速。
- KoboldCpp,功能齐全的Web UI,支持所有平台和GPU架构的加速。特别适合故事创作。
- GPT4All,免费开源的本地运行GUI,支持Windows、Linux和macOS,具备完整的GPU加速。
- LM Studio,易于使用且功能强大的本地GUI,适用于Windows和macOS(Silicon),支持GPU加速。Linux版本于2023年11月27日进入测试阶段。
- LoLLMS Web UI,出色的Web UI,具有许多有趣且独特的功能,包括完整的模型库以便轻松选择模型。
- Faraday.dev,美观易用的基于角色的聊天GUI,适用于Windows和macOS(Silicon和Intel),支持GPU加速。
- llama-cpp-python,支持GPU加速的Python库,具备LangChain支持和OpenAI兼容的API服务器。
- candle,专注于性能的Rust ML框架,包括GPU支持和易用性。
- ctransformers,支持GPU加速的Python库,具备LangChain支持和OpenAI兼容的AI服务器。注意,截至撰写时(2023年11月27日),ctransformers已长时间未更新,不支持许多新模型。
可用仓库
提示模板:Alpaca
以下是描述任务的指令。请撰写恰当完成该请求的回应。
### 指令:
{prompt}
### 回应:
许可
源模型的创建者将其许可列为cc-by-nc-4.0
,因此本量化使用了相同的许可。
由于此模型基于Llama 2,它也受Meta Llama 2许可条款的约束,相关许可文件已额外包含。因此,应认为该模型声明为双重许可。我已联系Hugging Face以澄清双重许可问题,但他们尚未有正式立场。如果情况有变,或Meta对此有任何反馈,我将相应更新本节内容。
在此期间,任何有关许可的问题,特别是这两个许可如何相互作用的问题,应直接向原始模型仓库提出:Kooten的DaringMaid 20B。
兼容性
这些量化的GGUFv2文件与2023年8月27日之后的llama.cpp兼容,具体为提交d0cee0d版本。
它们也与许多第三方UI和库兼容——请参阅本README顶部的列表。
量化方法说明
点击查看详情
可用的新方法包括:
- GGML_TYPE_Q2_K - "type-1" 2位量化,超级块包含16个块,每个块16个权重。块比例和最小值用4位量化。最终有效使用每权重2.5625位(bpw)
- GGML_TYPE_Q3_K - "type-0" 3位量化,超级块包含16个块,每个块16个权重。比例用6位量化。最终使用每权重3.4375位(bpw)。
- GGML_TYPE_Q4_K - "type-1" 4位量化,超级块包含8个块,每个块32个权重。比例和最小值用6位量化。最终使用每权重4.5位(bpw)。
- GGML_TYPE_Q5_K - "type-1" 5位量化。超级块结构与GGML_TYPE_Q4_K相同,最终使用每权重5.5位(bpw)
- GGML_TYPE_Q6_K - "type-0" 6位量化。超级块包含16个块,每个块16个权重。比例用8位量化。最终使用每权重6.5625位(bpw)
参考下方提供的文件表,查看哪些文件使用了哪些方法及其具体方式。
提供的文件
注意:上述RAM数据假设没有GPU卸载。如果将层卸载到GPU,将减少RAM使用并改用VRAM。