language:
-
法语
-
英语
license: llama2
tags:
-
代码
-
文本生成推理
-
'Meta'
-
llama
-
facebook
-
pytorch
-
openassistant
-
数据
-
教育
-
语言
model_name: ARIA 70B V2
base_model: Faradaylab/ARIA-70B-V2
inference: false
model_creator: Faradaylab
model_type: llama
pipeline_tag: 文本生成
prompt_template: '[INST] <>
你是一个乐于助人、尊重他人且诚实的助手。始终尽可能提供有帮助的回答,同时确保安全。你的回答不应包含任何有害、不道德、种族主义、性别歧视、有毒、危险或非法内容。请确保你的回答在社会上是公正的且积极向上。如果问题没有意义或事实不连贯,请解释原因而不是回答错误内容。如果你不知道问题的答案,请不要分享虚假信息。
<>
{prompt}[/INST]
'
quantized_by: TheBloke
ARIA 70B V2 - GGUF
描述
此仓库包含Faradaylab的ARIA 70B V2的GGUF格式模型文件。
关于GGUF
GGUF是llama.cpp团队于2023年8月21日引入的新格式。它是GGML的替代品,llama.cpp不再支持GGML。
以下是已知支持GGUF的客户端和库的不完整列表:
可用仓库
提示模板:Llama-2-Chat
[INST] <<SYS>>
你是一个乐于助人、尊重他人且诚实的助手。始终尽可能提供有帮助的回答,同时确保安全。你的回答不应包含任何有害、不道德、种族主义、性别歧视、有毒、危险或非法内容。请确保你的回答在社会上是公正的且积极向上。如果问题没有意义或事实不连贯,请解释原因而不是回答错误内容。如果你不知道问题的答案,请不要分享虚假信息。
<</SYS>>
{prompt}[/INST]
兼容性
这些量化的GGUFv2文件与2023年8月27日之后的llama.cpp兼容,提交号为d0cee0d
它们也与许多第三方UI和库兼容 - 请参阅本README顶部的列表。
量化方法说明
点击查看详情
可用的新方法包括:
- GGML_TYPE_Q2_K - "type-1" 2位量化,包含16个块的超级块,每个块有16个权重。块比例和最小值用4位量化。最终有效使用每权重2.5625位(bpw)
- GGML_TYPE_Q3_K - "type-0" 3位量化,包含16个块的超级块,每个块有16个权重。比例用6位量化。最终使用每权重3.4375位(bpw)。
- GGML_TYPE_Q4_K - "type-1" 4位量化,包含8个块的超级块,每个块有32个权重。比例和最小值用6位量化。最终使用每权重4.5位(bpw)。
- GGML_TYPE_Q5_K - "type-1" 5位量化。与GGML_TYPE_Q4_K相同的超级块结构,最终使用每权重5.5位(bpw)
- GGML_TYPE_Q6_K - "type-0" 6位量化。包含16个块的超级块,每个块有16个权重。比例用8位量化。最终使用每权重6.5625位(bpw)
请参阅下面的“提供的文件”表,了解哪些文件使用哪些方法以及如何使用。
提供的文件
注意:上述RAM数据假设没有GPU卸载。如果将层卸载到GPU,这将减少RAM使用并使用VRAM。
Q6_K和Q8_0文件被分割并需要合并
注意:HF不支持上传大于50GB的文件。因此,我将Q6_K和Q8_0文件作为分割文件上传。
点击查看关于Q6_K和Q8_0文件的说明
q6_K
请下载:
aria-70b-v2.Q6_K.gguf-split-a
aria-70b-v2.Q6_K.gguf-split-b
q8_0
请下载:
aria-70b-v2.Q8_0.gguf-split-a