模型简介
模型特点
模型能力
使用案例
语言:
- 英语
- 德语
- 法语
- 意大利语
- 葡萄牙语
- 印地语
- 西班牙语
- 泰语
标签:
- 量化
- 2位
- 3位
- 4位
- 5位
- 6位
- 8位
- GGUF
- 文本生成
模型名称: Meta-Llama-3.1-8B-Instruct-GGUF
基础模型: meta-llama/Meta-Llama-3.1-8B-Instruct
推理: 不支持
模型创建者: meta-llama
任务标签: 文本生成
量化者: MaziyarPanahi
许可证: llama3.1
MaziyarPanahi/Meta-Llama-3.1-8B-Instruct-GGUF
- 模型创建者: meta-llama
- 原始模型: meta-llama/Meta-Llama-3.1-8B-Instruct
描述
MaziyarPanahi/Meta-Llama-3.1-8B-Instruct-GGUF 包含 meta-llama/Meta-Llama-3.1-8B-Instruct 的 GGUF 格式模型文件。
关于 GGUF
GGUF 是由 llama.cpp 团队于 2023 年 8 月 21 日引入的新格式,用于替代不再受支持的 GGML 格式。
以下是已知支持 GGUF 的部分客户端和库的不完整列表:
- llama.cpp: GGUF 的源项目,提供 CLI 和服务器选项。
- llama-cpp-python: 支持 GPU 加速、LangChain 和 OpenAI 兼容 API 服务器的 Python 库。
- LM Studio: 适用于 Windows 和 macOS(Silicon)的易用且功能强大的本地 GUI,支持 GPU 加速。Linux 版本于 2023 年 11 月 27 日进入测试阶段。
- text-generation-webui: 使用最广泛的 Web UI,具有许多功能和强大的扩展,支持 GPU 加速。
- KoboldCpp: 功能全面的 Web UI,支持跨平台和 GPU 架构的加速,特别适合故事生成。
- GPT4All: 免费开源的本地运行 GUI,支持 Windows、Linux 和 macOS,并支持全 GPU 加速。
- LoLLMS Web UI: 功能丰富的 Web UI,包含许多独特功能,包括完整的模型库以便轻松选择模型。
- Faraday.dev: 吸引人且易用的基于角色的聊天 GUI,支持 Windows 和 macOS(Silicon 和 Intel),并支持 GPU 加速。
- candle: 专注于性能的 Rust ML 框架,支持 GPU 并易于使用。
- ctransformers: 支持 GPU 加速、LangChain 和 OpenAI 兼容 AI 服务器的 Python 库。截至 2023 年 11 月 27 日,ctransformers 已长时间未更新,不支持许多新模型。
特别感谢
🙏 特别感谢 Georgi Gerganov 和 llama.cpp 的整个团队,让这一切成为可能。
原始 README:
模型信息
Meta Llama 3.1 系列是多语言大语言模型(LLM)的集合,包含 8B、70B 和 405B 规模的预训练和指令调优生成模型(文本输入/文本输出)。Llama 3.1 的指令调优纯文本模型(8B、70B、405B)针对多语言对话用例进行了优化,在常见的行业基准测试中优于许多开源和闭源聊天模型。
模型开发者: Meta
模型架构: Llama 3.1 是一种自回归语言模型,使用了优化的 Transformer 架构。调优版本通过监督微调(SFT)和基于人类反馈的强化学习(RLHF)来对齐人类对帮助性和安全性的偏好。
训练数据 | 参数 | 输入模态 | 输出模态 | 上下文长度 | GQA | 令牌数量 | 知识截止日期 | |
Llama 3.1(纯文本) | 公开可用的在线数据的新混合。 | 8B | 多语言文本 | 多语言文本和代码 | 128k | 是 | 15T+ | 2023 年 12 月 |
70B | 多语言文本 | 多语言文本和代码 | 128k | 是 | ||||
405B | 多语言文本 | 多语言文本和代码 | 128k | 是 |
支持的语言: 英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语。
Llama 3.1 模型系列: 令牌数量仅指预训练数据。所有模型版本均使用分组查询注意力(GQA)以提高推理可扩展性。
模型发布日期: 2024 年 7 月 23 日。
状态: 这是一个基于离线数据集训练的静态模型。未来版本的调优模型将根据社区反馈改进模型安全性后发布。
许可证: 自定义商业许可证 Llama 3.1 社区许可证可在以下链接获取: https://github.com/meta-llama/llama-models/blob/main/models/llama3_1/LICENSE
关于模型的提问或评论发送方式: 有关如何提供反馈或评论的说明可在模型 README 中找到。有关生成参数的技术信息以及如何在应用程序中使用 Llama 3.1 的详细方法,请访问 此处。
预期用途
预期用例: Llama 3.1 旨在用于多语言的商业和研究用途。指令调优的纯文本模型适用于类似助手的聊天,而预训练模型可适应各种自然语言生成任务。Llama 3.1 模型系列还支持利用其模型输出来改进其他模型,包括合成数据生成和蒸馏。Llama 3.1 社区许可证允许这些用例。
超出范围: 任何违反适用法律或法规(包括贸易合规法律)的使用方式。任何被可接受使用政策和 Llama 3.1 社区许可证禁止的其他使用方式。使用超出本模型卡明确引用的支持语言之外的语言。
**注意: Llama 3.1 已针对比 8 种支持语言更广泛的语言集合进行了训练。开发者可以对 Llama 3.1 模型进行超出 8 种支持语言的微调,前提是他们遵守 Llama 3.1 社区许可证和可接受使用政策,并在此类情况下负责确保以安全和负责任的方式使用 Llama 3.1 的其他语言。
使用方法
此存储库包含两个版本的 Meta-Llama-3.1-8B-Instruct,分别用于 transformers 和原始 llama
代码库。
使用 transformers
从 transformers >= 4.43.0
开始,您可以使用 Transformers 的 pipeline
抽象或通过 Auto 类与 generate()
函数运行对话推理。
确保通过 pip install --upgrade transformers
更新您的 transformers 安装。
import transformers
import torch
model_id = "meta-llama/Meta-Llama-3.1-8B-Instruct"
pipeline = transformers.pipeline(
"text-generation",
model=model_id,
model_kwargs={"torch_dtype": torch.bfloat16},
device_map="auto",
)
messages = [
{"role": "system", "content": "你是一个海盗聊天机器人,总是用海盗语回答!"},
{"role": "user", "content": "你是谁?"},
]
outputs = pipeline(
messages,
max_new_tokens=256,
)
print(outputs[0]["generated_text"][-1])
注意: 您还可以在 huggingface-llama-recipes
中找到有关如何在本地使用模型、使用 torch.compile()
、辅助生成、量化等的详细方法。
使用 llama
请遵循 存储库 中的说明。
要下载原始检查点,请参阅以下使用 huggingface-cli
的示例命令:
huggingface-cli download meta-llama/Meta-Llama-3.1-8B-Instruct --include "original/*" --local-dir Meta-Llama-3.1-8B-Instruct
硬件和软件
训练因素: 我们使用了自定义训练库、Meta 自定义构建的 GPU 集群以及用于预训练的生产基础设施。微调、标注和评估也在生产基础设施上进行。
训练累计使用了 39.3M GPU 小时的 H100-80GB(TDP 为 700W)类型硬件计算,如下表所示。训练时间是训练每个模型所需的总 GPU 时间,功耗是每个 GPU 设备的峰值功率容量,根据电源使用效率进行调整。
训练温室气体排放: 基于位置的温室气体排放总量估计为 11,390 吨 CO2eq。自 2020 年以来,Meta 在其全球运营中保持了温室气体净零排放,并将 100% 的电力使用与可再生能源匹配,因此训练的总市场温室气体排放为 0 吨 CO2eq。
训练时间(GPU 小时) | 训练功耗(W) | 基于位置的训练温室气体排放
(吨 CO2eq) |
基于市场的训练温室气体排放
(吨 CO2eq) |
|
Llama 3.1 8B | 1.46M | 700 | 420 | 0 |
Llama 3.1 70B | 7.0M | 700 | 2,040 | 0 |
Llama 3.1 405B | 30.84M | 700 | 8,930 | 0 |
总计 | 39.3M |
|
11,390 | 0 |
确定训练能源使用和温室气体排放的方法可在 此处 找到。由于 Meta 公开了这些模型,其他人不会产生训练能源使用和温室气体排放。
训练数据
概述: Llama 3.1 在来自公开可用来源的约 15 万亿令牌数据上进行了预训练。微调数据包括公开可用的指令数据集以及超过 25M 个合成生成的示例。
数据新鲜度: 预训练数据的截止日期为 2023 年 12 月。
基准分数
在本节中,我们报告了 Llama 3.1 模型在标准自动基准测试中的结果。对于所有评估,我们使用了内部评估库。