M

Meta Llama 3 8B Instruct FP8 KV

由 RedHatAI 开发
Meta-Llama-3-8B-Instruct模型经过FP8权重和激活值的逐张量量化,适用于vLLM >= 0.5.0进行推理。该模型检查点还包含FP8量化KV缓存的逐张量缩放参数。
下载量 3,153
发布时间 : 5/20/2024
模型介绍
内容详情
替代品

模型简介

这是一个经过FP8量化的Meta-Llama-3-8B-Instruct模型,支持FP8 KV缓存,适用于高效推理。

模型特点

FP8量化
模型权重和激活值经过FP8逐张量量化,减少内存占用同时保持精度
FP8 KV缓存支持
包含FP8量化KV缓存的逐张量缩放参数,可通过vLLM调用
高效推理
专为vLLM >= 0.5.0优化,提供高效的推理性能

模型能力

文本生成
对话系统
指令跟随

使用案例

对话系统
聊天机器人
构建高效的聊天机器人应用
内容生成
文本创作
辅助进行各种文本创作任务