模型介绍
内容详情
替代品
模型简介
这是Meta发布的Llama 3系列8B参数指令调优模型的GGUF格式版本,优化了在消费级硬件上的运行效率
模型特点
高效量化
提供多种量化级别(Q2_K到Q6_K),平衡模型大小和推理质量
本地部署
GGUF格式支持在消费级硬件上高效运行
长上下文支持
支持8K tokens的上下文长度
多平台兼容
支持多种运行环境包括llama.cpp、LM Studio等
模型能力
对话生成
文本补全
指令跟随
创意写作
使用案例
内容创作
故事生成
生成创意故事和小说内容
可生成连贯、富有创意的叙事文本
文章写作
辅助撰写各类文章和报告
能根据提示生成结构合理的文章
编程辅助
代码生成
根据描述生成代码片段
能生成多种编程语言的代码
language:
- en license: other tags:
- meta
- pytorch
- llama
- llama-3
- GGUF pipeline_tag: text-generation license_name: llama3 license_link: LICENSE extra_gated_prompt: "### META LLAMA 3 社区许可协议\nMeta Llama 3 版本发布日期:2024年4月18日\n本"协议"指关于Llama材料使用、复制、分发和修改的条款与条件。\n"文档"指Meta在https://llama.meta.com/get-started/发布的Meta Llama 3配套规范、手册和文档。\n"被许可方"或"您"指达到适用法律规定的法定年龄、能够提供法律同意,并有权代表雇主或其他实体(如您代表该实体签署本协议)的个人或实体。\n"Meta Llama 3"指Meta在https://llama.meta.com/llama-downloads发布的基础大语言模型及软件算法,包括机器学习模型代码、训练模型权重、推理代码、训练代码、微调代码等组件。\n"Llama材料"统指根据本协议提供的Meta专有Meta Llama 3及文档(或其任何部分)。\n"Meta"或"我们"指Meta Platforms爱尔兰有限公司(若您位于欧洲经济区或瑞士)或Meta Platforms公司(若您位于欧洲经济区或瑞士以外)。\n\n1. 许可权利与再分发\na. 权利授予。您获得非排他性、全球性、不可转让且免版税的有限许可,可使用、复制、分发Llama材料,并创建其衍生作品和修改。\nb. 再分发与使用\ni. 若您分发Llama材料(或其衍生作品),或使用它们的产品/服务(包括其他AI模型),必须:(A)随附本协议副本;(B)在相关网站/界面显著标注"基于Meta Llama 3构建"。若用于创建/训练AI模型,还须在模型名称前包含"Llama 3"。\nii. 若通过被许可方获得集成终端产品中的Llama材料,则本协议第2条不适用。\niii. 所有分发的Llama材料副本中须保留声明文件:"Meta Llama 3根据Meta Llama 3社区许可协议授权,版权所有© Meta Platforms公司"。\niv. 使用须遵守适用法律法规及Llama材料可接受使用政策(https://llama.meta.com/llama3/use-policy)。\nv. 不得使用Llama材料或其输出来改进其他大语言模型(Meta Llama 3及其衍生作品除外)。\n\n2. 附加商业条款\n若在版本发布日,被许可方(或其关联方)产品/服务的月活跃用户在之前日历月超过7亿,必须向Meta申请商业许可,否则无权行使本协议权利。\n\n3. 免责声明\n除非法律要求,Llama材料及其输出按"原样"提供,Meta放弃所有明示或默示保证,包括适销性、特定用途适用性等。您需自行承担使用风险。\n\n4. 责任限制\nMeta及其关联方不对因本协议产生的任何间接、特殊、后果性、附带或惩罚性损害承担责任。\n\n5. 知识产权\na. 本协议未授予商标许可。使用"Llama 3"标记需符合Meta品牌指南,相关商誉归Meta所有。\nb. 您对Llama材料的衍生作品享有所有权。\nc. 若对Meta提起知识产权诉讼,本协议授予的许可将自动终止,您需赔偿Meta因此产生的第三方索赔。\n\n6. 期限与终止\n协议自您接受时生效,直至终止。违约时Meta可终止协议,终止后您应停止使用并删除Llama材料。第3、4、7条在终止后仍有效。\n\n7. 适用法律\n本协议受加州法律管辖,排除冲突法原则。《联合国国际货物销售合同公约》不适用。争议由加州法院专属管辖。\n\n### Meta Llama 3可接受使用政策\n访问或使用Meta Llama 3即表示您同意本政策(最新版本见https://llama.meta.com/llama3/use-policy)。\n\n#### 禁止用途\n不得用于:\n1. 违法或侵犯他人权利,包括:\n • 暴力/恐怖主义\n • 儿童剥削\n • 人口贩卖\n • 向未成年人非法分发内容\n • 未经许可的专业实践\n • 非法处理敏感信息\n • 侵犯第三方权利\n • 创建恶意软件\n2. 可能致人死亡/伤害的活动,包括:\n • 军事/核应用\n • 非法武器开发\n • 关键基础设施操作\n3. 故意欺骗行为,包括:\n • 生成虚假信息\n • 制造垃圾内容\n • 未经授权的冒充\n4. 未向终端用户披露AI系统已知风险\n\n违规可通过以下方式举报:\n• 模型问题:https://github.com/meta-llama/llama3\n• 风险内容:developers.facebook.com/llama_output_feedback\n• 安全漏洞:facebook.com/whitehat/info\n• 政策违规:LlamaUseReport@meta.com" extra_gated_fields: 名: text 姓: text 出生日期: date_picker 国家: country 所属机构: text 地理位置: ip_location ? 点击提交即表示接受许可条款,并同意根据Meta隐私政策收集、存储、处理和共享所提供的信息 : checkbox extra_gated_description: 所提供信息将根据Meta隐私政策处理。 extra_gated_button_content: 提交 quantized_by: andrijdavid
Meta-Llama-3-8B-Instruct-GGUF
- 原始模型: Meta-Llama-3-8B-Instruct
模型说明
本仓库包含Meta-Llama-3-8B-Instruct的GGUF格式模型文件。
关于GGUF
GGUF是llama.cpp团队于2023年8月21日推出的新格式,用于替代不再支持的GGML格式。以下为部分支持GGUF的客户端和库:
- llama.cpp - GGUF的源项目,提供CLI和服务器选项
- text-generation-webui - 最流行的Web UI,支持GPU加速
- Ollama - 轻量级本地模型运行框架
- KoboldCpp - 全平台GPU加速的Web UI
- GPT4All - 跨平台开源GUI
- LM Studio - Windows/macOS本地GUI
- LoLLMS Web UI - 特色Web UI
- Faraday.dev - 角色聊天GUI
- llama-cpp-python - Python库(支持GPU加速)
- candle - Rust ML框架
- ctransformers - Python库(支持GPU)
- localGPT - 文档对话开源工具
量化方法解析
点击查看详情
新支持的量化方法: * GGML_TYPE_Q2_K - "type-1" 2位量化(有效2.5625位/权重) * GGML_TYPE_Q3_K - "type-0" 3位量化(有效3.4375位/权重) * GGML_TYPE_Q4_K - "type-1" 4位量化(有效4.5位/权重) * GGML_TYPE_Q5_K - "type-1" 5位量化(有效5.5位/权重) * GGML_TYPE_Q6_K - "type-0" 6位量化(有效6.5625位/权重)GGUF文件下载指南
手动下载提示:通常只需下载单个量化文件夹即可。
以下工具可自动下载模型:
- LM Studio
- LoLLMS Web UI
- Faraday.dev
在text-generation-webui
中
在下载模型处输入仓库名:LiteLLMs/Meta-Llama-3-8B-Instruct-GGUF,并指定文件名(如Q4_0/Q4_0-00001-of-00009.gguf)后点击下载。
命令行下载(支持批量)
建议使用huggingface-hub
库:
pip3 install huggingface-hub
下载单个文件:
huggingface-cli download LiteLLMs/Meta-Llama-3-8B-Instruct-GGUF Q4_0/Q4_0-00001-of-00009.gguf --local-dir . --local-dir-use-symlinks False
批量下载:
huggingface-cli download LiteLLMs/Meta-Llama-3-8B-Instruct-GGUF --local-dir . --local-dir-use-symlinks False --include='*Q4_K*gguf'
高速下载需安装hf_transfer
:
pip3 install huggingface_hub[hf_transfer]
HF_HUB_ENABLE_HF_TRANSFER=1 huggingface-cli download ...
Windows用户需先设置环境变量:
set HF_HUB_ENABLE_HF_TRANSFER=1
llama.cpp
运行示例
确保使用d0cee0d或更高版本:
./main -ngl 35 -m Q4_0/Q4_0-00001-of-00009.gguf --color -c 8192 --temp 0.7 --repeat_penalty 1.1 -n -1 -p "<提示>"
参数说明:
-ngl 32
:GPU加速层数(无GPU则删除)-c 8192
:序列长度(长序列需更多资源)- 对话模式替换
-p
为-i -ins
详细参数参考llama.cpp文档
在text-generation-webui
中运行
参见模型标签文档
Python调用
推荐使用llama-cpp-python库:
安装:
# 基础安装(无GPU加速)
pip install llama-cpp-python
# CUDA加速
CMAKE_ARGS="-DLLAMA_CUBLAS=on" pip install llama-cpp-python
# Metal加速(macOS)
CMAKE_ARGS="-DLLAMA_METAL=on" pip install llama-cpp-python
示例代码:
from llama_cpp import Llama
llm = Llama(
model_path="./Q4_0/Q4_0-00001-of-00009.gguf",
n_ctx=32768, n_threads=8, n_gpu_layers=35
)
output = llm("提示", max_tokens=512, stop=["</s>"], echo=True)
# 聊天补全API
llm.create_chat_completion(messages=[{"role":"system","content":"你是写作助手"},{"role":"user","content":"写关于羊驼的故事"}])
与LangChain集成
参考:
原始模型卡片:Meta-Llama-3-8B-Instruct
模型详情
Meta发布Llama 3系列大语言模型(8B和70B参数),包含预训练和指令调优版本,在对话任务中表现优异。
关键信息:
- 架构:优化Transformer架构
- 训练数据:超过15万亿token的公开数据
- 上下文长度:8K
- 知识截止:2023年3月(8B)/2023年12月(70B)
- 商业许可:https://llama.meta.com/llama3/license
使用方式
Transformers调用
import transformers
pipeline = transformers.pipeline("text-generation", model="meta-llama/Meta-Llama-3-8B-Instruct")
messages = [{"role":"system","content":"你是一个用海盗语回答的聊天机器人"},{"role":"user","content":"你是谁?"}]
prompt = pipeline.tokenizer.apply_chat_template(messages, tokenize=False)
outputs = pipeline(prompt, max_new_tokens=256)
原始代码库
参见GitHub仓库
基准测试
基础模型表现
测试项 | Llama3-8B | Llama2-7B |
---|---|---|
MMLU(5-shot) | 66.6 | 45.7 |
GSM-8K | 79.6 | 25.7 |
指令调优模型
测试项 | Llama3-8B | Llama2-7B |
---|---|---|
HumanEval | 62.2 | 7.9 |
MATH | 30.0 | 3.8 |
责任与安全
- 发布前进行广泛红队测试
- 提供责任使用指南
- 开源安全工具套件Purple Llama
- 输出反馈机制:developers.facebook.com/llama_output_feedback
引用
@article{llama3modelcard,
title={Llama 3 Model Card},
author={AI@Meta},
year={2024},
url={https://github.com/meta-llama/llama3/blob/main/MODEL_CARD.md}
}
贡献者
(此处保留原始英文名单,因涉及大量人名)
Phi 2 GGUF
其他
Phi-2是微软开发的一个小型但强大的语言模型,具有27亿参数,专注于高效推理和高质量文本生成。
大型语言模型
支持多种语言
P
TheBloke
41.5M
205
Roberta Large
MIT
基于掩码语言建模目标预训练的大型英语语言模型,采用改进的BERT训练方法
大型语言模型
英语
R
FacebookAI
19.4M
212
Distilbert Base Uncased
Apache-2.0
DistilBERT是BERT基础模型的蒸馏版本,在保持相近性能的同时更轻量高效,适用于序列分类、标记分类等自然语言处理任务。
大型语言模型
英语
D
distilbert
11.1M
669
Llama 3.1 8B Instruct GGUF
Meta Llama 3.1 8B Instruct 是一个多语言大语言模型,针对多语言对话用例进行了优化,在常见的行业基准测试中表现优异。
大型语言模型
英语
L
modularai
9.7M
4
Xlm Roberta Base
MIT
XLM-RoBERTa是基于100种语言的2.5TB过滤CommonCrawl数据预训练的多语言模型,采用掩码语言建模目标进行训练。
大型语言模型
支持多种语言
X
FacebookAI
9.6M
664
Roberta Base
MIT
基于Transformer架构的英语预训练模型,通过掩码语言建模目标在海量文本上训练,支持文本特征提取和下游任务微调
大型语言模型
英语
R
FacebookAI
9.3M
488
Opt 125m
其他
OPT是由Meta AI发布的开放预训练Transformer语言模型套件,参数量从1.25亿到1750亿,旨在对标GPT-3系列性能,同时促进大规模语言模型的开放研究。
大型语言模型
英语
O
facebook
6.3M
198
Llama 3.1 8B Instruct
Llama 3.1是Meta推出的多语言大语言模型系列,包含8B、70B和405B参数规模,支持8种语言和代码生成,优化了多语言对话场景。
大型语言模型
Transformers

支持多种语言
L
meta-llama
5.7M
3,898
T5 Base
Apache-2.0
T5基础版是由Google开发的文本到文本转换Transformer模型,参数规模2.2亿,支持多语言NLP任务。
大型语言模型
支持多种语言
T
google-t5
5.4M
702
Xlm Roberta Large
MIT
XLM-RoBERTa是基于100种语言的2.5TB过滤CommonCrawl数据预训练的多语言模型,采用掩码语言建模目标进行训练。
大型语言模型
支持多种语言
X
FacebookAI
5.3M
431
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers

支持多种语言
L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers

英语
C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统
中文
R
uer
2,694
98
AIbase是一个专注于MCP服务的平台,为AI开发者提供高质量的模型上下文协议服务,助力AI应用开发。
简体中文