L

Llama 3 8B Instruct GPTQ 4 Bit

由 astronomer 开发
这是一个基于Meta Llama 3构建的4位量化GPTQ模型,由Astronomer量化,可在低VRAM设备上高效运行。
下载量 2,059
发布时间 : 4/19/2024
模型介绍
内容详情
替代品

模型简介

该模型是Meta-Llama-3-8B-Instruct的4位量化版本,专为在资源有限的GPU上高效运行而优化,同时保持较高的生成质量。

模型特点

高效量化
4位GPTQ量化技术显著减少模型大小和VRAM需求,同时保持较高的生成质量。
低资源运行
可在不到6GB VRAM的设备上运行,适合Nvidia T4、K80等入门级GPU。
优化推理
支持vLLM和text-generation-webui等多种推理框架,提供高效的文本生成服务。

模型能力

指令跟随
文本生成
问答系统
对话系统

使用案例

对话系统
智能助手
构建响应迅速、理解力强的对话助手
可在资源有限的环境中提供流畅的对话体验
内容生成
文本创作
生成各种类型的文本内容
保持原始模型90%以上的生成质量