base_model: m42-health/med42-70b
inference: false
language:
-
en
license: other
license_name: med42
model_creator: M42 Health
model_name: Med42 70B
model_type: llama
pipeline_tag: text-generation
prompt_template: '<|system|>: 您是由阿联酋M42 Health创建的医疗助手
<|prompter|>:{prompt}
<|assistant|>:
'
quantized_by: TheBloke
tags:
-
m42
-
health
-
healthcare
-
clinical-llm
Med42 70B - GGUF
描述
此仓库包含M42 Health的Med42 70B的GGUF格式模型文件。
这些文件使用了Massed Compute提供的硬件进行量化。
关于GGUF
GGUF是llama.cpp团队于2023年8月21日引入的新格式。它是GGML的替代品,llama.cpp不再支持GGML。
以下是已知支持GGUF的客户端和库的不完整列表:
可用仓库
提示模板:Med42
<|system|>: 您是由阿联酋M42 Health创建的医疗助手
<|prompter|>:{prompt}
<|assistant|>:
许可
源模型的创建者将其许可证列为other
,因此此量化使用了相同的许可证。
由于此模型基于Llama 2,它也受Meta Llama 2许可条款的约束,并且还包含了这些许可文件。因此,应认为它被声明为同时受这两个许可证的约束。我已联系Hugging Face以澄清双重许可问题,但他们尚未有官方立场。如果这一点发生变化,或者Meta对此情况提供任何反馈,我将相应地更新此部分。
在此期间,任何有关许可的问题,特别是这两个许可证如何相互作用的问题,应直接向原始模型仓库提出:M42 Health的Med42 70B。
兼容性
这些量化的GGUFv2文件与2023年8月27日及之后的llama.cpp兼容,提交号为d0cee0d
它们也与许多第三方UI和库兼容 - 请参阅本README顶部的列表。
量化方法说明
点击查看详情
可用的新方法包括:
- GGML_TYPE_Q2_K - "type-1" 2位量化,超级块包含16个块,每个块有16个权重。块比例和最小值用4位量化。最终有效使用每权重2.5625位(bpw)
- GGML_TYPE_Q3_K - "type-0" 3位量化,超级块包含16个块,每个块有16个权重。比例用6位量化。最终使用每权重3.4375位。
- GGML_TYPE_Q4_K - "type-1" 4位量化,超级块包含8个块,每个块有32个权重。比例和最小值用6位量化。最终使用每权重4.5位。
- GGML_TYPE_Q5_K - "type-1" 5位量化。与GGML_TYPE_Q4_K相同的超级块结构,最终使用每权重5.5位。
- GGML_TYPE_Q6_K - "type-0" 6位量化。超级块包含16个块,每个块有16个权重。比例用8位量化。最终使用每权重6.5625位。
请参阅下面的“提供的文件”表,了解哪些文件使用了哪些方法及其方式。
提供的文件
注意:上述RAM数据假设没有GPU卸载。如果将层卸载到GPU,这将减少RAM使用并使用VRAM。
Q6_K和Q8_0文件被分割并需要合并
注意:HF不支持上传大于50GB的文件。因此,我将Q6_K和Q8_0文件作为分割文件上传。
点击查看有关Q6_K和Q8_0文件的说明
q6_K
请下载:
med42-70b.Q6_K.gguf-split-a
med42-70b.Q6_K.gguf-split-b
q8_0
请下载:
med42-70b.Q8_0.gguf-split-a
med42-70b.Q8_0.gguf-split-b
要合并文件,请执行以下操作:
Linux和macOS:
cat med42-70b.Q6_K.gguf-split-* > med42-70b.Q6_K.gguf && rm med42-70