language:
- en
pipeline_tag: text-generation
tags:
- facebook
- meta
- pytorch
- llama
- llama-3
- quantized
- 2-bit
- 3-bit
- 4-bit
- 5-bit
- 6-bit
- 8-bit
- 16-bit
- GGUF
base_model: meta-llama/Meta-Llama-3-8B-Instruct
inference: false
model_creator: MaziyarPanahi
model_name: Meta-Llama-3-8B-Instruct-GGUF
quantized_by: MaziyarPanahi
license_name: llama3
此处的GGUF和量化模型基于meta-llama/Meta-Llama-3-8B-Instruct模型
下载方式
您可以通过以下命令仅下载需要的量化版本,而无需克隆整个仓库:
huggingface-cli download MaziyarPanahi/Meta-Llama-3-8B-Instruct-GGUF --local-dir . --include '*Q2_K*gguf'
加载GGUF模型
您必须
遵循Llama-3提供的提示模板:
./llama.cpp/main -m Meta-Llama-3-8B-Instruct.Q2_K.gguf -r '<|eot_id|>' --in-prefix "\n<|start_header_id|>user<|end_header_id|>\n\n" --in-suffix "<|eot_id|><|start_header_id|>assistant<|end_header_id|>\n\n" -p "<|begin_of_text|><|start_header_id|>system<|end_header_id|>\n\nYou are a helpful, smart, kind, and efficient AI assistant. You always fulfill the user's requests to the best of your ability.<|eot_id|>\n<|start_header_id|>user<|end_header_id|>\n\nHi! How are you?<|eot_id|>\n<|start_header_id|>assistant<|end_header_id|>\n\n" -n 1024
原始README
模型详情
Meta开发并发布了Meta Llama 3系列大语言模型(LLMs),这是一组包含80亿和700亿参数的预训练及指令调优生成文本模型。Llama 3指令调优模型针对对话场景进行了优化,在常见行业基准测试中表现优于许多开源聊天模型。此外,在开发这些模型时,我们特别注重优化帮助性和安全性。
模型开发者 Meta
变体 Llama 3提供两种规模——80亿和700亿参数——包括预训练和指令调优版本。
输入 模型仅接受文本输入。
输出 模型仅生成文本和代码。
模型架构 Llama 3是一种自回归语言模型,采用优化的transformer架构。调优版本使用监督微调(SFT)和基于人类反馈的强化学习(RLHF)来符合人类对帮助性和安全性的偏好。
|
训练数据
|
参数量
|
上下文长度
|
GQA
|
token数量
|
知识截止日期
|
Llama 3
|
公开可用在线数据的新组合
|
8B
|
8k
|
是
|
15T+
|
2023年3月
|
70B
|
8k
|
是
|
2023年12月
|
Llama 3模型系列。token计数仅指预训练数据。80亿和700亿版本均使用分组查询注意力(GQA)以提高推理可扩展性。
模型发布日期 2024年4月18日。
状态 这是一个基于离线数据集训练的静态模型。随着我们根据社区反馈改进模型安全性,未来将发布调优模型的新版本。
许可证 可在https://llama.meta.com/llama3/license获取自定义商业许可证
关于模型的疑问或意见反馈方式 有关如何提供模型反馈或意见的说明,请参阅模型README。有关生成参数的技术信息及如何在应用中使用Llama 3的指南,请访问此处。
预期用途
预期使用场景 Llama 3适用于英语的商业和研究用途。指令调优模型适用于类似助手的聊天场景,而预训练模型可适配多种自然语言生成任务。
超出范围 任何违反适用法律法规(包括贸易合规法律)的使用方式。任何违反可接受使用政策和Llama 3社区许可证的其他禁止使用方式。英语以外的语言使用**。
**注意:开发者可针对英语以外的语言微调Llama 3模型,前提是遵守Llama 3社区许可证和可接受使用政策。
使用方法
此仓库包含两个版本的Meta-Llama-3-70B-Instruct,分别适用于transformers和原始llama3
代码库。
与transformers一起使用
以下是与Transformers一起使用的代码片段:
import transformers
import torch
model_id = "meta-llama/Meta-Llama-3-70B-Instruct"
pipeline = transformers.pipeline(
"text-generation",
model=model_id,
model_kwargs={"torch_dtype": torch.bfloat16},
device="cuda",
)
messages = [
{"role": "system", "content": "你是一个总是用海盗语回答的海盗聊天机器人!"},
{"role": "user", "content": "你是谁?"},
]
prompt = pipeline.tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
terminators = [
tokenizer.eos_token_id,
tokenizer.convert_tokens_to_ids("<|eot_id|>")
]
outputs = pipeline(
prompt,
max_new_tokens=256,
eos_token_id=terminators,
do_sample=True,
temperature=0.6,
top_p=0.9,
)
print(outputs[0]["generated_text"][len(prompt):])
与llama3
一起使用
请遵循仓库中的说明。
要下载原始检查点,请参阅以下使用huggingface-cli
的示例命令:
huggingface-cli download meta-llama/Meta-Llama-3-70B-Instruct --include "original/*" --local-dir Meta-Llama-3-70B-Instruct
对于Hugging Face支持,我们推荐使用transformers或TGI,但类似命令也适用。
硬件和软件
训练因素 我们使用自定义训练库、Meta的研究超级计算机和生产集群进行预训练。微调、标注和评估也在第三方云计算上执行。
碳足迹预训练累计 使用了770万GPU小时的计算,硬件类型为H100-80GB(热设计功耗700W)。估计总排放量为2290吨CO2当量,其中100%由Meta的可持续发展计划抵消。
|
时间(GPU小时)
|
功耗(W)
|
碳排放量(tCO2eq)
|
Llama 3 8B
|
130万
|
700
|
390
|
Llama 3 70B
|
640万
|
700
|
1900
|
总计
|
770万
|
|
2290
|