base_model: codellama/CodeLlama-70b-Instruct-hf
inference: false
language:
- 代码
license: llama2
model_creator: Code Llama
model_name: Codellama 70B Instruct
model_type: llama
pipeline_tag: 文本生成
prompt_template: "来源: 系统\n\n {system_message} 来源: 用户\n\n {prompt}
\ 来源: 助手\n \n"
quantized_by: TheBloke
tags:
- llama-2
Codellama 70B Instruct - GGUF
描述
此仓库包含Code Llama的Codellama 70B Instruct的GGUF格式模型文件。
这些文件使用了由Massed Compute慷慨提供的硬件进行了量化。
关于GGUF
GGUF是由llama.cpp团队于2023年8月21日引入的新格式。它是GGML的替代品,llama.cpp不再支持GGML。
以下是已知支持GGUF的客户端和库的不完整列表:
- llama.cpp。GGUF的源项目。提供CLI和服务器选项。
- text-generation-webui,最广泛使用的Web UI,具有许多功能和强大的扩展。支持GPU加速。
- KoboldCpp,一个功能齐全的Web UI,支持所有平台和GPU架构的GPU加速。特别适合讲故事。
- GPT4All,一个免费开源的本地运行GUI,支持Windows、Linux和macOS,具有完整的GPU加速。
- LM Studio,一个易于使用且功能强大的本地GUI,适用于Windows和macOS(Silicon),支持GPU加速。Linux版本自2023年11月27日起处于测试阶段。
- LoLLMS Web UI,一个优秀的Web UI,具有许多有趣且独特的功能,包括一个完整的模型库,便于模型选择。
- Faraday.dev,一个吸引人且易于使用的基于角色的聊天GUI,适用于Windows和macOS(Silicon和Intel),支持GPU加速。
- llama-cpp-python,一个具有GPU加速、LangChain支持和OpenAI兼容API服务器的Python库。
- candle,一个专注于性能的Rust ML框架,包括GPU支持和易用性。
- ctransformers,一个具有GPU加速、LangChain支持和OpenAI兼容AI服务器的Python库。注意,截至撰写时(2023年11月27日),ctransformers已长时间未更新,不支持许多最近的模型。
可用仓库
提示模板:CodeLlama-70B-Instruct
来源: 系统
{system_message}<step> 来源: 用户
{prompt} <step> 来源: 助手
兼容性
这些量化的GGUFv2文件与自2023年8月27日起的llama.cpp兼容,提交号为d0cee0d
它们也与许多第三方UI和库兼容 - 请参阅本README顶部的列表。
量化方法说明
点击查看详情
可用的新方法有:
- GGML_TYPE_Q2_K - "type-1" 2位量化,在包含16个块的超级块中,每个块有16个权重。块比例和最小值用4位量化。最终有效使用每权重2.5625位(bpw)
- GGML_TYPE_Q3_K - "type-0" 3位量化,在包含16个块的超级块中,每个块有16个权重。比例用6位量化。最终使用每权重3.4375位(bpw)。
- GGML_TYPE_Q4_K - "type-1" 4位量化,在包含8个块的超级块中,每个块有32个权重。比例和最小值用6位量化。最终使用每权重4.5位(bpw)。
- GGML_TYPE_Q5_K - "type-1" 5位量化。与GGML_TYPE_Q4_K相同的超级块结构,最终使用每权重5.5位(bpw)
- GGML_TYPE_Q6_K - "type-0" 6位量化。包含16个块的超级块,每个块有16个权重。比例用8位量化。最终使用每权重6.5625位(bpw)
请参阅下面的“提供的文件”表格,了解哪些文件使用了哪些方法以及如何使用。
提供的文件
注意:上述RAM数据假设没有GPU卸载。如果将层卸载到GPU,这将减少RAM使用量并使用VRAM代替。
Q6_K和Q8_0文件被分割并需要合并
注意:HF不支持上传大于50GB的文件。因此,我已将Q6_K和Q8_0文件作为分割文件上传。
点击查看关于Q6_K和Q8_0文件的说明
q6_K
请下载:
codellama-70b-instruct.Q6_K.gguf-split-a
codellama-70b-instruct.Q6_K.gguf-split-b