模型简介
模型特点
模型能力
使用案例
语言:
- 英语
- 德语
- 法语
- 意大利语
- 葡萄牙语
- 印地语
- 西班牙语
- 泰语
许可证: llama3.1 基础模型: meta-llama/Meta-Llama-3.1-8B 管道标签: 文本生成 标签:
- meta
- pytorch
- llama
- llama-3
额外授权提示: "### LLAMA 3.1社区许可协议\nLlama 3.1版本发布日期: 2024年7月23日\n"协议"指本文规定的Llama材料使用、复制、分发和修改的条款和条件。\n"文档"指Meta在https://llama.meta.com/doc/overview分发的Llama 3.1规格、手册和文档。\n"被许可方"或"您"指您、您的雇主或任何其他个人或实体(如果您代表该个人或实体签订本协议),根据适用法律、规则或法规达到提供法律同意的年龄,并且如果您代表他们签订本协议,则具有法律约束您的雇主或该其他个人或实体的权限。\n"Llama 3.1"指基础大型语言模型和软件及算法,包括机器学习模型代码、训练模型权重、推理代码、训练代码、微调代码以及Meta在https://llama.meta.com/llama-downloads分发的上述其他元素。\n"Llama材料"指Meta专有的Llama 3.1和文档(及其任何部分)在本协议下提供的总称。\n"Meta"或"我们"指Meta Platforms Ireland Limited(如果您位于或,如果是实体,您的主要营业地点在EEA或瑞士)和Meta Platforms, Inc.(如果您位于EEA或瑞士之外)。\n\n1. 许可权利和再分发。\na. 权利授予。您被授予一项非排他性、全球性、不可转让且免版税的有限许可,使用Meta在Llama材料中体现的知识产权或其他权利,以使用、复制、分发、复制、创建衍生作品和修改Llama材料。\nb. 再分发和使用。\ni. 如果您分发或提供Llama材料(或其任何衍生作品),或包含其中任何部分的产品或服务(包括另一个AI模型),您应(A)随任何此类Llama材料提供本协议的副本;(B)在相关网站、用户界面、博客文章、关于页面或产品文档中显著显示"Built with Llama"。如果您使用Llama材料或其任何输出或结果来创建、训练、微调或以其他方式改进AI模型,并将其分发或提供,您还应在任何此类AI模型名称的开头包含"Llama"。\nii. 如果您从被许可方处接收Llama材料或其任何衍生作品作为集成终端用户产品的一部分,则本协议第2节不适用于您。\niii. 您必须在分发的所有Llama材料副本中保留以下归属声明,作为此类副本的一部分在"Notice"文本文件中分发:"Llama 3.1根据Llama 3.1社区许可协议许可,版权所有© Meta Platforms, Inc. 保留所有权利。"\niv. 您对Llama材料的使用必须遵守适用法律和法规(包括贸易合规法律和法规),并遵守Llama材料的可接受使用政策(可在https://llama.meta.com/llama3_1/use-policy获取),该政策通过引用并入本协议。\n2. 附加商业条款。如果在Llama 3.1版本发布日期,由被许可方或其关联公司提供的产品或服务的月活跃用户在前一个日历月超过7亿月活跃用户,您必须向Meta申请许可,Meta可自行决定是否授予您许可,除非或直到Meta明确授予您此类权利,否则您无权行使本协议下的任何权利。\n3. 免责声明。除非适用法律要求,Llama材料及其任何输出和结果均按"原样"提供,不提供任何形式的保证,Meta否认所有明示或暗示的保证,包括但不限于所有权、不侵权、适销性或特定用途适用性的保证。您全权负责确定使用或再分发Llama材料的适当性,并承担与使用Llama材料及其任何输出和结果相关的任何风险。\n4. 责任限制。在任何情况下,Meta或其关联公司均不对因本协议引起的任何利润损失或任何间接、特殊、后果性、附带性、示范性或惩罚性损害承担责任,即使Meta或其关联公司已被告知此类损害的可能性。\n5. 知识产权。\na. 本协议未授予任何商标许可,在与Llama材料相关的使用中,Meta和被许可方均不得使用对方或其任何关联公司拥有或关联的任何名称或标记,除非在描述和再分发Llama材料时合理和惯常使用或如本节5(a)所述。Meta特此授予您使用"Llama"("标记")的许可,仅用于遵守第1.b.i节最后一句的要求。您应遵守Meta的品牌指南(当前可在https://about.meta.com/brand/resources/meta/company-brand/获取)。您使用标记所产生的所有商誉均归Meta所有。\nb. 在Meta对Llama材料及Meta或其代表制作的衍生作品的所有权前提下,对于您制作的Llama材料的任何衍生作品和修改,您和Meta之间,您是并将继续是此类衍生作品和修改的所有者。\nc. 如果您对Meta或任何实体提起诉讼或其他程序(包括诉讼中的交叉索赔或反诉),指控Llama材料或Llama 3.1输出或结果或其任何部分构成对您拥有或可许可的知识产权或其他权利的侵权,则本协议授予您的任何许可应自该诉讼或索赔提交或提起之日起终止。您应就任何第三方因您使用或分发Llama材料而引起或相关的索赔对Meta进行赔偿并使Meta免受损害。\n6. 期限和终止。本协议的期限自您接受本协议或访问Llama材料之日起开始,并将持续完全有效,直至根据本文条款和条件终止。如果您违反本协议的任何条款或条件,Meta可终止本协议。本协议终止后,您应删除并停止使用Llama材料。第3、4和7节在本协议终止后仍然有效。\n7. 适用法律和管辖权。本协议将受加利福尼亚州法律管辖和解释,不考虑法律冲突原则,并且《联合国国际货物销售合同公约》不适用于本协议。加利福尼亚州的法院对本协议引起的任何争议具有专属管辖权。\n### Llama 3.1可接受使用政策\nMeta致力于促进其工具和功能(包括Llama 3.1)的安全和公平使用。如果您访问或使用Llama 3.1,您同意本可接受使用政策("政策")。本政策的最新版本可在https://llama.meta.com/llama3_1/use-policy找到。\n#### 禁止用途\n我们希望每个人都能安全且负责任地使用Llama 3.1。您同意您不会使用或允许他人使用Llama 3.1:\n1. 违反法律或他人权利,包括:\n 1. 参与、推广、生成、贡献、鼓励、计划、煽动或进一步非法或违法活动或内容,例如:\n 1. 暴力或恐怖主义\n 2. 对儿童的剥削或伤害,包括招揽、创建、获取或传播儿童剥削内容或未报告儿童性虐待材料\n 3. 人口贩卖、剥削和性暴力\n 4. 向未成年人非法分发信息或材料,包括淫秽材料,或未对此类信息或材料采用法律要求的年龄限制\n 5. 性招揽\n 6. 任何其他犯罪活动\n 3. 参与、推广、煽动或便利对个人或群体的骚扰、虐待、威胁或欺凌\n 4. 参与、推广、煽动或便利在就业、就业福利、信贷、住房、其他经济利益或其他基本商品和服务提供中的歧视或其他非法或有害行为\n 5. 从事未经授权或无执照的任何职业实践,包括但不限于金融、法律、医疗/健康或相关专业实践\n 6. 未经适用法律要求的权利和同意,收集、处理、披露、生成或推断个人健康、人口统计或其他敏感个人或私人信息\n 7. 参与或便利任何侵犯、盗用或以其他方式侵犯任何第三方权利的行为或生成任何内容,包括使用Llama材料的任何产品或服务的输出或结果\n 8. 创建、生成或便利创建恶意代码、恶意软件、计算机病毒或任何可能禁用、过载、干扰或损害网站或计算机系统的正常运行、完整性、操作或外观的行为\n2. 参与、推广、煽动、便利或协助计划或开发可能造成个人死亡或身体伤害的活动,包括与以下相关的Llama 3.1使用:\n 1. 军事、战争、核工业或应用、间谍活动,用于受美国国务院维护的《国际武器贸易条例》(ITAR)约束的材料或活动\n 2. 枪支和非法武器(包括武器开发)\n 3. 非法药物和受管制/受控物质\n 4. 关键基础设施、运输技术或重型机械的操作\n 5. 自残或对他人造成伤害,包括自杀、自残和饮食失调\n 6. 任何旨在煽动或推广暴力、虐待或对个人造成身体伤害的内容\n3. 故意欺骗或误导他人,包括与以下相关的Llama 3.1使用:\n 1. 生成、推广或进一步欺诈或虚假信息的创建或推广\n 2. 生成、推广或进一步诽谤性内容,包括诽谤性陈述、图像或其他内容的创建\n 3. 生成、推广或进一步分发垃圾邮件\n 4. 未经同意、授权或法律权利冒充另一个个人\n 5. 表示Llama 3.1或其输出是人工生成的\n 6. 生成或便利虚假在线互动,包括虚假评论和其他虚假在线互动手段\n4. 未向终端用户适当披露您的AI系统的任何已知危险\n请通过以下方式之一报告违反本政策的行为、软件"错误"或其他可能导致违反本政策的问题:\n * 报告模型问题:https://github.com/meta-llama/llama-models/issues\n * 报告模型生成的风险内容:\n developers.facebook.com/llama_output_feedback\n * 报告错误和安全问题:facebook.com/whitehat/info\n * 报告违反可接受使用政策或未经许可使用Meta Llama 3的行为:LlamaUseReport@meta.com"
额外授权字段: 名字: 文本 姓氏: 文本 出生日期: 日期选择器 国家: 国家 所属机构: 文本 职位: 类型: 选择 选项: - 学生 - 研究生 - AI研究员 - AI开发人员/工程师 - 记者 - 其他 地理位置: IP定位 ? 点击下方的提交按钮即表示我接受许可条款,并确认我提供的信息将根据Meta隐私政策进行收集、存储、处理和共享 : 复选框 额外授权描述: 您提供的信息将根据Meta隐私政策进行收集、存储、处理和共享。 额外授权按钮内容: 提交
Llama-3.1-8B-Instruct

模型信息
基于Llama构建
Meta Llama 3.1系列多语言大型语言模型(LLMs)是一组预训练和指令调优的生成模型,包含8B、70B和405B三种规模(文本输入/文本输出)。Llama 3.1指令调优的纯文本模型(8B、70B、405B)针对多语言对话用例进行了优化,在常见行业基准测试中优于许多开源和闭源聊天模型。
模型开发者: Meta
模型架构: Llama 3.1是一种自回归语言模型,使用优化的Transformer架构。调优版本采用监督微调(SFT)和基于人类反馈的强化学习(RLHF),以符合人类对帮助性和安全性的偏好。
训练数据 | 参数 | 输入模态 | 输出模态 | 上下文长度 | GQA | 令牌计数 | 知识截止 | |
Llama 3.1(纯文本) | 新的公开在线数据混合。 | 8B | 多语言文本 | 多语言文本和代码 | 128k | 是 | 15T+ | 2023年12月 |
70B | 多语言文本 | 多语言文本和代码 | 128k | 是 | ||||
405B | 多语言文本 | 多语言文本和代码 | 128k | 是 |
支持的语言: 英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语。
Llama 3.1模型系列。令牌计数仅指预训练数据。所有模型版本均使用分组查询注意力(GQA)以提高推理可扩展性。
模型发布日期: 2024年7月23日。
状态: 这是一个基于离线数据集训练的静态模型。随着我们根据社区反馈改进模型安全性,将发布调优模型的未来版本。
许可证: 自定义商业许可证Llama 3.1社区许可证可在以下网址获取:https://github.com/meta-llama/llama-models/blob/main/models/llama3_1/LICENSE
关于模型的问题或意见发送至何处 有关如何提供模型反馈或意见的说明可在模型README中找到。有关生成参数的技术信息以及如何在应用程序中使用Llama 3.1的配方,请访问此处。
预期用途
预期用例 Llama 3.1旨在用于多种语言的商业和研究用途。指令调优的纯文本模型适用于类似助手的聊天,而预训练模型可适应各种自然语言生成任务。Llama 3.1模型系列还支持利用其模型输出来改进其他模型,包括合成数据生成和蒸馏。Llama 3.1社区许可证允许这些用例。
范围外 以任何方式违反适用法律或法规(包括贸易合规法律)的使用。以可接受使用政策和Llama 3.1社区许可证禁止的任何其他方式使用。在本模型卡中明确引用为支持语言之外的语言中使用**。
**注意: Llama 3.1已针对比8种支持语言更广泛的语言集合进行了训练。开发人员可以针对超出8种支持语言的Llama 3.1模型进行微调,前提是他们遵守Llama 3.1社区许可证和可接受使用政策,并且在这种情况下,负责确保在额外语言中使用Llama 3.1是以安全和负责任的方式进行的。
使用方法
此存储库包含两个版本的Meta-Llama-3.1-8B-Instruct,分别用于transformers和原始llama
代码库。
部署
此模型可以高效地部署在vLLM、Red Hat Enterprise Linux AI和Openshift AI上,如下例所示。
在vLLM上部署
from vllm import LLM, SamplingParams
from transformers import AutoTokenizer
model_id = "RedHatAI/Llama-3.1-8B-Instruct"
number_gpus = 4
sampling_params = SamplingParams(temperature=0.7, top_p=0.8, max_tokens=256)
tokenizer = AutoTokenizer.from_pretrained(model_id)
prompt = "给我一个关于大型语言模型的简短介绍。"
llm = LLM(model=model_id, tensor_parallel_size=number_gpus)
outputs = llm.generate(prompt, sampling_params)
generated_text = outputs[0].outputs[0].text
print(generated_text)
vLLM还支持与OpenAI兼容的服务。更多详情请参阅文档。
在Red Hat AI推理服务器上部署
$ podman run --rm -it --device nvidia.com/gpu=all -p 8000:8000 \
--ipc=host \
--env "HUGGING_FACE_HUB_TOKEN=$HF_TOKEN" \
--env "HF_HUB_OFFLINE=0" -v ~/.cache/vllm:/home/vllm/.cache \
--name=vllm \
registry.access.redhat.com/rhaiis/rh-vllm-cuda \
vllm serve \
--tensor-parallel-size 8 \
--max-model-len 32768 \
--enforce-eager --model RedHatAI/Llama-3.1-8B-Instruct
更多详情请参阅Red Hat AI推理服务器文档。
在Red Hat Enterprise Linux AI上部署
# 通过docker从Red Hat Registry下载模型
# 注意:这将下载模型到~/.cache/instructlab/models,除非指定--model-dir。
ilab model download --repository docker://registry.redhat.io/rhelai1/llama-3-1-8b-instruct:1.5
# 通过ilab服务模型
ilab model serve --model-path ~/.cache/instructlab/models/llama-3-1-8b-instruct
# 与模型聊天
ilab model chat --model ~/.cache/instructlab/models/llama-3-1-8b-instruct
更多详情请参阅Red Hat Enterprise Linux AI文档。
在Red Hat Openshift AI上部署
# 使用ServingRuntime设置vllm服务器
# 保存为:vllm-servingruntime.yaml
apiVersion: serving.kserve.io/v1alpha1
kind: ServingRuntime
metadata:
name: vllm-cuda-runtime # 可选更改:设置唯一名称
annotations:
openshift.io/display-name: vLLM NVIDIA GPU ServingRuntime for KServe
opendatahub.io/recommended-accelerators: '["nvidia.com/gpu"]'
labels:
opendatahub.io/dashboard: 'true'
spec:
annotations:
prometheus.io/port: '8080'
prometheus.io/path: '/metrics'
multiModel: false
supportedModelFormats:
- autoSelect: true
name: vLLM
containers:
- name: kserve-container
image: quay.io/modh/vllm:rhoai-2.20-cuda # 如果需要更改。如果是AMD:quay.io/modh/vllm:rhoai-2.20-rocm
command:
- python
- -m
- vllm.entrypoints.openai.api_server
args:
- "--port=8080"
- "--model=/mnt/models"
- "--served-model-name={{.Name}}"
env:
- name: HF_HOME
value: /tmp/hf_home
ports:
- containerPort: 8080
protocol: TCP
# 将模型附加到vllm服务器。这是NVIDIA模板
# 保存为:inferenceservice.yaml
apiVersion: serving.kserve.io/v1beta1
kind: InferenceService
metadata:
annotations:
openshift.io/display-name: llama-3-1-8b-instruct # 可选更改
serving.kserve.io/deploymentMode: RawDeployment
name: llama-3-1-8b-instruct # 指定模型名称。此值将用于在有效负载中调用模型
labels:
opendatahub.io/dashboard: 'true'
spec:
predictor:
maxReplicas: 1
minReplicas: 1
model:
modelFormat:
name: vLLM
name: ''
resources:
limits:
cpu: '2' # 这是模型特定的
memory: 8Gi # 这是模型特定的
nvidia.com/gpu: '1' # 这是加速器特定的
requests: # 此块相同注释
cpu: '1'
memory: 4Gi
nvidia.com/gpu: '1'
runtime: vllm-cuda-runtime # 必须与上面的ServingRuntime名称匹配
storageUri: oci://registry.redhat.io/rhelai1/modelcar-llama-3-1-8b-instruct:1.5
tolerations:
- effect: NoSchedule
key: nvidia.com/gpu
operator: Exists
# 首先确保在您要部署模型的项目中
# oc project <project-name>
# 应用两种资源以运行模型
# 应用ServingRuntime
oc apply -f vllm-servingruntime.yaml
# 应用InferenceService
oc apply -f qwen-inferenceservice.yaml
# 替换下面的<inference-service-name>和<cluster-ingress-domain>:
# - 如果不确定,运行`oc get inferenceservice`以查找您的URL。
# 使用curl调用服务器:
curl https://<inference-service-name>-predictor-default.<domain>/v1/chat/completions
-H "Content-Type: application/json" \
-d '{
"model": "llama-3-1-8b-instruct",
"stream": true,
"stream_options": {
"include_usage": true
},
"max_tokens": 1,
"messages": [
{
"role": "user",
"content": "蜜蜂的翅膀这么小,怎么能飞起来?"
}
]
}'
更多详情请参阅Red Hat Openshift AI文档。


