base_model: ddh0/Norocetacean-20b-10k
inference: false
license: other
license_link: https://huggingface.co/microsoft/Orca-2-13b/blob/main/LICENSE
license_name: microsoft-research-license
model_creator: ddh0
model_name: Norocetacean 20B 10K
model_type: llama
pipeline_tag: text-generation
prompt_template: '以下是描述任务的指令。请撰写恰当完成该请求的回复。
指令:
{prompt}
回复:
'
quantized_by: TheBloke
Norocetacean 20B 10K - GGUF
模型描述
本仓库包含ddh0的Norocetacean 20B 10K的GGUF格式模型文件。
这些量化文件由Massed Compute慷慨提供的硬件完成。
关于GGUF
GGUF是llama.cpp团队于2023年8月21日推出的新格式。它替代了不再受llama.cpp支持的GGML格式。
以下是已知支持GGUF的客户端和库的不完整列表:
- llama.cpp。GGUF的原生项目。提供CLI和服务器选项。
- text-generation-webui,最广泛使用的Web UI,具有众多功能和强大扩展。支持GPU加速。
- KoboldCpp,功能全面的Web UI,支持跨平台和GPU架构的加速。特别适合故事创作。
- GPT4All,免费开源的本地运行GUI,支持Windows、Linux和macOS,具备完整GPU加速。
- LM Studio,易于使用且功能强大的本地GUI,支持Windows和macOS(Silicon)的GPU加速。Linux版本截至2023年11月27日处于测试阶段。
- LoLLMS Web UI,出色的Web UI,包含许多有趣且独特的功能,包括完整的模型库便于模型选择。
- Faraday.dev,吸引人且易于使用的基于角色的聊天GUI,支持Windows和macOS(Silicon和Intel),具备GPU加速。
- llama-cpp-python,支持GPU加速的Python库,兼容LangChain和OpenAI风格的API服务器。
- candle,专注于性能的Rust ML框架,包括GPU支持和易用性。
- ctransformers,支持GPU加速的Python库,兼容LangChain和OpenAI风格的AI服务器。注意:截至2023年11月27日,ctransformers已长时间未更新,不支持许多新模型。
可用仓库
提示模板:Alpaca
以下是描述任务的指令。请撰写恰当完成该请求的回复。
### 指令:
{prompt}
### 回复:
许可声明
源模型创作者将其许可列为other
,因此本量化版本采用相同许可。
由于此模型基于Llama 2,它也受Meta Llama 2许可条款约束,相关许可文件已一并包含。因此应视为同时受两份许可声明约束。我已联系Hugging Face寻求双重许可的澄清,但他们尚未有官方立场。若此情况变化,或Meta对此提供反馈,我将相应更新本部分内容。
在此期间,任何关于许可的问题,特别是这两份许可如何交互的问题,应直接咨询原始模型仓库:ddh0的Norocetacean 20B 10K。
兼容性
这些量化GGUFv2文件与2023年8月27日之后的llama.cpp兼容,提交号为d0cee0d
它们也与许多第三方UI和库兼容——请参阅本README顶部的列表。
量化方法说明
点击查看详情
可用的新方法包括:
- GGML_TYPE_Q2_K - "type-1" 2位量化,超级块包含16个块,每块16个权重。块缩放和最小值用4位量化。最终有效使用每权重2.5625位(bpw)
- GGML_TYPE_Q3_K - "type-0" 3位量化,超级块包含16个块,每块16个权重。缩放用6位量化。最终使用3.4375 bpw。
- GGML_TYPE_Q4_K - "type-1" 4位量化,超级块包含8个块,每块32个权重。缩放和最小值用6位量化。最终使用4.5 bpw。
- GGML_TYPE_Q5_K - "type-1" 5位量化。与GGML_TYPE_Q4_K相同的超级块结构,结果为5.5 bpw
- GGML_TYPE_Q6_K - "type-0" 6位量化。超级块含16个块,每块16个权重。缩放用8位量化。最终使用6.5625 bpw
请参阅下方"提供文件"表格,了解各文件使用的方法及详情。
提供文件