语言:
- 英文
许可证: 其他
库名称: transformers
标签:
- pytorch
- llama
- llama-2
- qCammel-70
模型名称: qCammel 70
基础模型: augtoma/qCammel-70-x
推理: 不支持
模型创建者: augtoma
模型类型: llama
流水线标签: 文本生成
提示模板: |
一段好奇用户与人工智能助手之间的对话。助手对用户的问题提供有帮助、详细且礼貌的回答。
用户: {prompt} 助手:
量化者: TheBloke
qCammel 70 - GGUF
描述
此仓库包含augtoma的qCammel 70的GGUF格式模型文件。
关于GGUF
GGUF是由llama.cpp团队于2023年8月21日引入的新格式。它取代了GGML,后者不再受llama.cpp支持。GGUF相比GGML具有诸多优势,如更好的分词、支持特殊标记。它还支持元数据,并设计为可扩展。
以下是不完全支持GGUF的客户端和库列表:
可用仓库
提示模板: Vicuna
一段好奇用户与人工智能助手之间的对话。助手对用户的问题提供有帮助、详细且礼貌的回答。用户: {prompt} 助手:
许可
源模型的创建者将其许可证列为其他
,因此此量化使用了相同的许可证。
由于此模型基于Llama 2,它也受Meta Llama 2许可条款约束,并额外包含了这些许可文件。因此应视为同时受两种许可证约束。我已联系Hugging Face寻求关于双重许可的澄清,但他们尚未有官方立场。如果情况变化,或Meta对此有任何反馈,我将相应更新此部分。
在此期间,任何关于许可的问题,特别是这两种许可如何交互的问题,应直接向原始模型仓库提出:augtoma的qCammel 70。
兼容性
这些量化的GGUFv2文件与2023年8月27日及之后的llama.cpp兼容,提交号为d0cee0d36d5be95a0d9088b674dbb27354107221
它们也与许多第三方UI和库兼容 - 请参阅此README顶部的列表。
量化方法说明
点击查看详情
可用的新方法包括:
- GGML_TYPE_Q2_K - "type-1" 2位量化,超级块包含16个块,每个块16个权重。块比例和最小值用4位量化。最终有效使用每权重2.5625位(bpw)
- GGML_TYPE_Q3_K - "type-0" 3位量化,超级块包含16个块,每个块16个权重。比例用6位量化。最终使用3.4375 bpw。
- GGML_TYPE_Q4_K - "type-1" 4位量化,超级块包含8个块,每个块32个权重。比例和最小值用6位量化。最终使用4.5 bpw。
- GGML_TYPE_Q5_K - "type-1" 5位量化。与GGML_TYPE_Q4_K相同的超级块结构,结果为5.5 bpw
- GGML_TYPE_Q6_K - "type-0" 6位量化。超级块包含16个块,每个块16个权重。比例用8位量化。最终使用6.5625 bpw
请参阅下面的“提供文件”表,了解哪些文件使用哪些方法及其方式。
提供文件
注意:上述RAM数据假设没有GPU卸载。如果将层卸载到GPU,将减少RAM使用并使用VRAM。
Q6_K和Q8_0文件需要分割并合并
注意:HF不支持上传超过50GB的文件。因此我将Q6_K和Q8_0文件作为分割文件上传。
点击查看关于Q6_K和Q8_0文件的说明
q6_K
请下载:
qcammel-70-x.Q6_K.gguf-split-a
qcammel-70-x.Q6_K.gguf-split-b
q8_0
请下载:
qcammel-70-x.Q8_0.gguf-split-a
qcammel-70-x.Q8_0.gguf-split-b
要合并文件,请