L

Llama 3.1 8B Instruct FP8

由 nvidia 开发
Meta Llama 3.1 8B Instruct模型的FP8量化版本,采用优化的transformer架构的自回归语言模型,支持128K上下文长度。
下载量 3,700
发布时间 : 8/29/2024

模型简介

该模型是Meta Llama 3.1 8B Instruct的FP8量化版本,专为TensorRT-LLM和vLLM推理优化,适用于文本生成任务。

模型特点

FP8量化
通过FP8量化技术,减少模型磁盘大小和GPU内存需求约50%,在H100上实现1.3倍加速。
长上下文支持
支持128K上下文长度,适合处理长文本任务。
高性能推理
针对TensorRT-LLM和vLLM优化,提供高效的推理性能。

模型能力

文本生成
长文本处理
指令跟随

使用案例

内容生成
文章续写
根据给定开头生成连贯的文章内容
对话系统
构建智能对话助手
教育
解题辅助
帮助解答数学、科学等学科问题
GSM8K数据集上达到83.1%准确率
AIbase
智启未来,您的人工智能解决方案智库
简体中文