库名称: vllm
支持语言:
- 阿拉伯语
- 德语
- 英语
- 西班牙语
- 法语
- 印地语
- 印尼语
- 意大利语
- 葡萄牙语
- 泰语
- 他加禄语
- 越南语
基础模型:
- meta-llama/Llama-4-Scout-17B-16E-Instruct
管道标签: 图像文本到文本
标签:
- facebook
- meta
- pytorch
- llama
- llama4
- neuralmagic
- redhat
- llmcompressor
- quantized
- FP8
许可证类型: 其他
许可证名称: llama4
Llama-4-Scout-17B-16E-Instruct-FP8动态量化版
基于Llama构建
模型概览
- 模型架构: Llama4条件生成模型
- 模型优化:
- 发布日期: 2025年4月15日
- 版本: 1.0
- 开发团队: Red Hat (Neural Magic)
模型优化说明
本模型通过对Llama-4-Scout-17B-16E-Instruct进行FP8数据类型的激活和权重量化获得。该优化将表示权重和激活的比特数从16降至8,可减少约50%的GPU内存需求,并提升约2倍的矩阵乘法计算吞吐量。权重量化还能降低约50%的磁盘空间需求。量化过程使用llm-compressor库实现。
部署方案
推荐使用vLLM后端高效部署本模型,示例如下:
from vllm import LLM, SamplingParams
from transformers import AutoTokenizer
model_id = "RedHatAI/Llama-4-Scout-17B-16E-Instruct-FP8-dynamic"
gpu数量 = 4
采样参数 = SamplingParams(温度=0.7, 最高概率=0.8, 最大令牌数=256)
分词器 = AutoTokenizer.from_pretrained(model_id)
提示词 = "请简要介绍大语言模型。"
大语言模型 = LLM(model=model_id, 张量并行规模=gpu数量)
输出结果 = 大语言模型.generate(提示词, 采样参数)
生成文本 = 输出结果[0].outputs[0].text
print(生成文本)
vLLM同时支持OpenAI兼容的服务接口,详见官方文档。
创建过程
创建详情
本模型通过运行以下代码片段使用[llm-compressor](https://github.com/vllm-project/llm-compressor)创建:
"""
该脚本加载LLM模型并应用FP8量化至权重和激活值。激活值采用动态量化策略,即在运行时实时处理。
"""
性能评估
模型在OpenLLM排行榜任务(v1/v2)、长上下文RULER、多模态MMMU及ChartQA等基准测试中进行了评估,所有评估均通过lm-evaluation-harness完成。
评估详情
OpenLLM v1测试命令
lm_eval \
--model vllm \
--model_args pretrained="RedHatAI/Llama-4-Scout-17B-16E-Instruct-FP8-dynamic",dtype=auto... \
--tasks openllm \
--batch_size auto
...(其他测试命令保持原有格式)...
准确率对比
(表格数据完整保留原有指标,仅表头中文化)
测试项目 |
恢复率(%) |
原模型得分 |
FP8量化版得分 |
ARC挑战赛(25样本) |
100.36 |
69.37 |
69.62 |
GSM8k(5样本) |
99.24 |
90.45 |
89.76 |
...(其余数据行保持原样)... |
|
|
|
多模态平均得分 |
99.38 |
69.41 |
68.98 |