Meta-Llama-3-8B-Instruct-bnb-8bit开源模型 - 免费部署实现高效文本生成

首页

Meta Llama 3 8B Instruct Bnb 8bit

由 alokabhishek 开发

这是Meta公司的Meta-Llama-3-8B-Instruct模型的8位量化版本，使用bitsandbytes进行量化，适用于高效的文本生成任务。

大型语言模型

Transformers

开源协议:其他 #8位量化推理 #英文对话助手 #高效微调支持

下载量 2,310

发布时间 : 4/25/2024

模型简介

该模型是一个经过指令微调的大语言模型，适用于英文商业和研究用途，特别适合对话式聊天和自然语言生成任务。

模型特点

8位量化

使用bitsandbytes库进行8位量化，减少内存占用同时保持高性能。

高效推理

支持使用Transformers库的pipeline进行高效推理，也可自定义推理。

多场景适用

适用于商业和研究领域的英文文本生成任务，如对话式聊天、自然语言生成等。

安全优化

经过红队测试和对抗性评估，实施了安全缓解技术以降低残留风险。

模型能力

文本生成

对话式聊天

自然语言理解

指令跟随

使用案例

商业应用

虚拟助手

作为高级虚拟助手，提供准确和有用的回答。

能够处理广泛的用户查询，提供高质量响应。

研究

自然语言生成研究

用于研究自然语言生成的各种任务。

在多个基准测试中表现优异。

🚀 alokabhishek/Meta-Llama-3-8B-Instruct-bnb-8bit模型卡

本仓库包含Meta公司的Meta-Llama-3-8B-Instruct模型的8位量化版本（使用bitsandbytes进行量化）。该模型在文本生成任务上表现出色，能够为用户提供高效且准确的文本输出。

🚀 快速开始

使用以下代码即可开始使用该模型：

import transformers
import torch

model_id = "alokabhishek/Meta-Llama-3-8B-Instruct-bnb-8bit"

pipeline = transformers.pipeline(
    "text-generation",
    model=model_id,
    model_kwargs={"torch_dtype": torch.bfloat16},
    device_map="auto",
)

prompt_instruction = "You are a virtual assistant with advanced expertise in a broad spectrum of topics, equipped to utilize high-level critical thinking, cognitive skills, creativity, and innovation. Your goal is to deliver the most straightforward and accurate answer possible for each question, ensuring high-quality and useful responses for the user. "
user_prompt = "Why is Hulk always angry?"

chat_messages = [
            {"role": "system", "content": str(prompt_instruction)},
            {"role": "user", "content": str(user_prompt)},
        ]

prompt = pipeline.tokenizer.apply_chat_template(
        chat_messages, 
        tokenize=False, 
        add_generation_prompt=True
)

terminators = [
    pipeline.tokenizer.eos_token_id,
    pipeline.tokenizer.convert_tokens_to_ids("<|eot_id|>")
]

output = pipeline(
    prompt,
    do_sample=True,
    max_new_tokens=1024,
    temperature=1,
    top_k=50,
    top_p=1,
    num_return_sequences=1,
    pad_token_id=text_generation_pipeline.tokenizer.pad_token_id,
    eos_token_id=terminators,
)


print(output[0]["generated_text"][len(prompt):])

✨ 主要特性

8位量化：使用bitsandbytes库对模型进行8位量化，在减少内存占用的同时保持较高的性能。
高效推理：支持使用Transformers库的pipeline进行高效推理，也可以使用Auto类和generate()函数进行自定义推理。
多场景适用：适用于商业和研究领域的英文文本生成任务，如对话式聊天、自然语言生成等。

📦 安装指南

本仓库包含两个版本的Meta-Llama-3-8B-Instruct模型，可分别与Transformers库和原始的llama3代码库配合使用。

使用Transformers库

import transformers
import torch

model_id = "meta-llama/Meta-Llama-3-8B-Instruct"

pipeline = transformers.pipeline(
    "text-generation",
    model=model_id,
    model_kwargs={"torch_dtype": torch.bfloat16},
    device_map="auto",
)

messages = [
    {"role": "system", "content": "You are a pirate chatbot who always responds in pirate speak!"},
    {"role": "user", "content": "Who are you?"},
]

prompt = pipeline.tokenizer.apply_chat_template(
        messages, 
        tokenize=False, 
        add_generation_prompt=True
)

terminators = [
    pipeline.tokenizer.eos_token_id,
    pipeline.tokenizer.convert_tokens_to_ids("<|eot_id|>")
]

outputs = pipeline(
    prompt,
    max_new_tokens=256,
    eos_token_id=terminators,
    do_sample=True,
    temperature=0.6,
    top_p=0.9,
)
print(outputs[0]["generated_text"][len(prompt):])

使用原始的`llama3`代码库

请按照仓库中的说明进行操作。

下载原始模型检查点的示例命令如下：

huggingface-cli download meta-llama/Meta-Llama-3-8B-Instruct --include "original/*" --local-dir Meta-Llama-3-8B-Instruct

💻 使用示例

基础用法

import transformers
import torch

model_id = "meta-llama/Meta-Llama-3-8B-Instruct"

pipeline = transformers.pipeline(
    "text-generation",
    model=model_id,
    model_kwargs={"torch_dtype": torch.bfloat16},
    device_map="auto",
)

messages = [
    {"role": "system", "content": "You are a pirate chatbot who always responds in pirate speak!"},
    {"role": "user", "content": "Who are you?"},
]

prompt = pipeline.tokenizer.apply_chat_template(
        messages, 
        tokenize=False, 
        add_generation_prompt=True
)

terminators = [
    pipeline.tokenizer.eos_token_id,
    pipeline.tokenizer.convert_tokens_to_ids("<|eot_id|>")
]

outputs = pipeline(
    prompt,
    max_new_tokens=256,
    eos_token_id=terminators,
    do_sample=True,
    temperature=0.6,
    top_p=0.9,
)
print(outputs[0]["generated_text"][len(prompt):])

高级用法

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

model_id = "meta-llama/Meta-Llama-3-8B-Instruct"

tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    torch_dtype=torch.bfloat16,
    device_map="auto",
)

messages = [
    {"role": "system", "content": "You are a pirate chatbot who always responds in pirate speak!"},
    {"role": "user", "content": "Who are you?"},
]

input_ids = tokenizer.apply_chat_template(
    messages,
    add_generation_prompt=True,
    return_tensors="pt"
).to(model.device)

terminators = [
    tokenizer.eos_token_id,
    tokenizer.convert_tokens_to_ids("<|eot_id|>")
]

outputs = model.generate(
    input_ids,
    max_new_tokens=256,
    eos_token_id=terminators,
    do_sample=True,
    temperature=0.6,
    top_p=0.9,
)
response = outputs[0][input_ids.shape[-1]:]
print(tokenizer.decode(response, skip_special_tokens=True))

📚 详细文档

模型详情

模型创建者：Meta
原始模型：Meta-Llama-3-8B-Instruct

关于使用bitsandbytes进行8位量化

QLoRA：高效微调量化大语言模型：arXiv - QLoRA: Efficient Finetuning of Quantized LLMs
Hugging Face博客文章：关于使用bitsandbytes进行8位量化：A Gentle Introduction to 8-bit Matrix Multiplication for transformers at scale using Hugging Face Transformers, Accelerate and bitsandbytes
bitsandbytes GitHub仓库：bitsandbytes github repo

预期用途

预期用例：Llama 3适用于英文商业和研究用途。经过指令微调的模型适用于类似助手的聊天场景，而预训练模型可用于各种自然语言生成任务。
超出范围的使用：禁止以任何违反适用法律法规（包括贸易合规法律）的方式使用。禁止以可接受使用政策和Llama 3社区许可证禁止的任何其他方式使用。禁止在英语以外的语言中使用。

硬件和软件

训练因素：使用自定义训练库、Meta的研究超级集群和生产集群进行预训练。微调、标注和评估也在第三方云计算平台上进行。
碳足迹：预训练累计使用了770万个H100-80GB GPU小时（TDP为700W）的计算资源。估计总排放量为2290吨二氧化碳当量，其中100%由Meta的可持续发展计划抵消。

训练数据

概述：Llama 3在超过15万亿个公开可用数据源的标记上进行了预训练。微调数据包括公开可用的指令数据集以及超过1000万个手动标注的示例。预训练和微调数据集均不包含Meta用户数据。
数据新鲜度：预训练数据的截止时间分别为2023年3月（7B模型）和2023年12月（70B模型）。

基准测试

在本节中，我们报告了Llama 3模型在标准自动基准测试中的结果。所有评估均使用我们的内部评估库进行。有关方法的详细信息，请参阅此处。

基础预训练模型

类别	基准测试	Llama 3 8B	Llama2 7B	Llama2 13B	Llama 3 70B	Llama2 70B
通用	MMLU (5-shot)	66.6	45.7	53.8	79.5	69.7
通用	AGIEval English (3-5 shot)	45.9	28.8	38.7	63.0	54.8
通用	CommonSenseQA (7-shot)	72.6	57.6	67.6	83.8	78.7
通用	Winogrande (5-shot)	76.1	73.3	75.4	83.1	81.8
通用	BIG-Bench Hard (3-shot, CoT)	61.1	38.1	47.0	81.3	65.7
通用	ARC-Challenge (25-shot)	78.6	53.7	67.6	93.0	85.3
知识推理	TriviaQA-Wiki (5-shot)	78.5	72.1	79.6	89.7	87.5
阅读理解	SQuAD (1-shot)	76.4	72.2	72.1	85.6	82.6
阅读理解	QuAC (1-shot, F1)	44.4	39.6	44.9	51.1	49.4
阅读理解	BoolQ (0-shot)	75.7	65.5	66.9	79.0	73.1
阅读理解	DROP (3-shot, F1)	58.4	37.9	49.8	79.7	70.2

指令微调模型

基准测试	Llama 3 8B	Llama 2 7B	Llama 2 13B	Llama 3 70B	Llama 2 70B
MMLU (5-shot)	68.4	34.1	47.8	82.0	52.9
GPQA (0-shot)	34.2	21.7	22.3	39.5	21.0
HumanEval (0-shot)	62.2	7.9	14.0	81.7	25.6
GSM-8K (8-shot, CoT)	79.6	25.7	77.4	93.0	57.5
MATH (4-shot, CoT)	30.0	3.8	6.7	50.4	11.6

责任与安全

我们相信，开放的人工智能方法能够带来更好、更安全的产品，加速创新，并扩大整体市场。我们致力于负责任的人工智能开发，并采取了一系列措施来限制滥用和危害，支持开源社区。

Llama 3-Instruct

安全：对于经过指令微调的模型，我们进行了广泛的红队测试、对抗性评估，并实施了安全缓解技术以降低残留风险。与任何大语言模型一样，残留风险可能仍然存在，我们建议开发人员在其使用场景中评估这些风险。
拒绝回答：除了残留风险，我们还非常重视模型对良性提示的拒绝回答问题。过度拒绝不仅会影响用户体验，在某些情况下甚至可能有害。我们听取了开发者社区的反馈，并改进了微调过程，以确保Llama 3比Llama 2更不可能错误地拒绝回答提示。

负责任的发布

除了上述负责任使用的考虑因素外，我们还遵循了严格的流程，在做出发布决定之前，需要采取额外措施来防范滥用和关键风险。

社区

生成式人工智能安全需要专业知识和工具，我们相信开放社区的力量能够加速其发展。我们是多个开放联盟的积极成员，包括AI联盟、人工智能合作组织和MLCommons，积极为其发展做出贡献。

🔧 技术细节

模型架构：Llama 3是一种自回归语言模型，采用了优化的Transformer架构。经过微调的版本使用监督微调（SFT）和基于人类反馈的强化学习（RLHF）来使模型与人类对有用性和安全性的偏好保持一致。
8位量化：使用bitsandbytes库对模型进行8位量化，通过减少模型参数的存储位数，降低了内存占用，同时保持了较高的推理性能。