M

Meta Llama 3 70B Instruct Quantized.w8a16

由 RedHatAI 开发
Meta-Llama-3-70B-Instruct 的量化版本,主要用于英文的商业和研究用途,能高效地进行类助手聊天。
下载量 1,035
发布时间 : 7/2/2024

模型简介

基于 Meta-Llama-3 架构的量化模型,通过 INT8 量化减少模型大小和 GPU 内存需求,适用于英文的商业和研究用途。

模型特点

INT8 量化
对 Transformer 块内线性算子的权重进行 INT8 量化,使磁盘大小和 GPU 内存需求降低约 50%。
高效部署
支持通过 vLLM 和 Transformers 高效部署,适用于多 GPU 环境。
高恢复率
在 OpenLLM 基准测试中,量化模型的性能恢复率达到 98.4%。

模型能力

文本生成
类助手聊天
商业用途
研究用途

使用案例

商业应用
客户服务助手
用于生成英文客户服务回复,提高响应效率。
研究应用
学术研究助手
辅助研究人员生成英文研究内容或摘要。
AIbase
智启未来,您的人工智能解决方案智库
简体中文