Phi 4 Quantized.w4a16

由 RedHatAI 开发

phi-4的INT4量化版本，通过权重量化减少75%的存储和内存需求，保持高性能

大型语言模型

Safetensors

支持多种语言开源协议:MIT #INT4量化推理 #低资源部署 #逻辑推理优化

下载量 723

发布时间 : 3/3/2025

模型简介

基于microsoft/phi-4的量化模型，适用于内存/计算受限环境和延迟敏感场景，特别擅长逻辑推理任务

模型特点

高效量化

采用INT4权重量化，磁盘大小和GPU内存需求减少约75%

高性能保持

量化后性能保持率达99.3%，在OpenLLM基准测试中表现优异

推理优化

特别适合内存/计算受限环境和延迟敏感场景

多领域能力

在自然语言处理、数学和代码生成等任务中表现突出

模型能力

文本生成

逻辑推理

数学计算

代码生成

对话交互

使用案例

资源受限环境

边缘设备部署

在内存有限的边缘设备上运行大型语言模型

减少75%内存需求

低延迟应用

需要快速响应的实时对话系统

保持高性能同时降低延迟

专业领域

数学问题求解

解决复杂的数学问题和逻辑推理

GSM-8K基准测试得分89.69

代码辅助

帮助开发者生成和优化代码

🚀 phi-4-quantized.w4a16

本项目是对phi-4模型进行量化处理后的版本，通过将权重量化为INT4数据类型，有效减少了磁盘空间和GPU内存需求，可用于加速语言模型研究，为生成式AI功能提供支持。

🚀 快速开始

部署模型

此模型可以使用 vLLM 后端高效部署，示例代码如下：

from vllm import LLM, SamplingParams
from transformers import AutoTokenizer

model_id = "neuralmagic-ent/phi-4-quantized.w4a16"
number_gpus = 1

sampling_params = SamplingParams(temperature=0.7, top_p=0.8, max_tokens=256)

tokenizer = AutoTokenizer.from_pretrained(model_id)

messages = [
    {"role": "user", "content": "Give me a short introduction to large language model."},
]

prompts = tokenizer.apply_chat_template(messages, tokenize=False)

llm = LLM(model=model_id, tensor_parallel_size=number_gpus)

outputs = llm.generate(prompts, sampling_params)

generated_text = outputs[0].outputs[0].text
print(generated_text)

vLLM 还支持与 OpenAI 兼容的服务，更多详细信息请参阅文档。

创建模型

此模型使用 llm-compressor 创建，具体代码如下：

创建详情

```python from transformers import AutoModelForCausalLM, AutoTokenizer from llmcompressor.modifiers.quantization import GPTQModifier from llmcompressor.transformers import oneshot from datasets import load_dataset

Load model

model_stub = "microsoft/phi-4" model_name = model_stub.split("/")[-1]

num_samples = 1024 max_seq_len = 8192

tokenizer = AutoTokenizer.from_pretrained(model_stub)

model = AutoModelForCausalLM.from_pretrained( model_stub, device_map="auto", torch_dtype="auto", )

def preprocess_fn(example): return {"text": tokenizer.apply_chat_template(example["messages"], add_generation_prompt=False, tokenize=False)}

ds = load_dataset("neuralmagic/LLM_compression_calibration", split="train") ds = ds.map(preprocess_fn)

Configure the quantization algorithm and scheme

recipe = GPTQModifier( targets="Linear", scheme="W4A16", ignore=["lm_head"], sequential_targets=["Phi3DecoderLayer"], dampening_frac=0.01, )

Apply quantization

oneshot( model=model, dataset=ds, recipe=recipe, max_seq_length=max_seq_len, num_calibration_samples=num_samples, )

Save to disk in compressed-tensors format

save_path = model_name + "-quantized.w4a16" model.save_pretrained(save_path) tokenizer.save_pretrained(save_path) print(f"Model and tokenizer saved to: {save_path}")

</details>

### 评估模型
该模型在 OpenLLM 排行榜任务（版本 1）上使用 [lm-evaluation-harness](https://github.com/EleutherAI/lm-evaluation-harness) 和 [vLLM](https://docs.vllm.ai/en/stable/) 引擎进行评估，使用以下命令：

lm_eval
--model vllm
--model_args pretrained="neuralmagic-ent/phi-4-quantized.w4a16",dtype=auto,gpu_memory_utilization=0.6,max_model_len=4096,enable_chunk_prefill=True,tensor_parallel_size=1
--tasks openllm
--batch_size auto


## ✨ 主要特性
### 模型概述
- **模型架构**：Phi3ForCausalLM
  - **输入**：文本
  - **输出**：文本
- **模型优化**：
  - **权重量化**：INT4
- **预期用例**：该模型旨在加速语言模型的研究，作为生成式 AI 功能的构建块。它适用于通用 AI 系统和应用程序（主要为英文），这些应用需要：
  1. 内存/计算受限的环境。
  2. 低延迟场景。
  3. 推理和逻辑能力。
- **适用范围外**：该模型并非专门为所有下游用途设计或评估，因此：
  1. 开发者在选择用例时应考虑语言模型的常见局限性，并在特定下游用例中使用之前评估和缓解准确性、安全性和公平性问题，特别是在高风险场景中。
  2. 开发者应了解并遵守与其用例相关的适用法律或法规（包括隐私、贸易合规法等），包括该模型主要针对英文的情况。
  3. 本模型卡片中的任何内容均不应被解释为或视为对模型发布所依据的许可证的限制或修改。
- **发布日期**：2025 年 3 月 3 日
- **版本**：1.0
- **模型开发者**：Red Hat (Neural Magic)

### 模型优化细节
此模型通过将 [phi-4](https://huggingface.co/microsoft/phi-4) 的权重量化为 INT4 数据类型获得。这种优化将每个参数的位数从 16 位减少到 4 位，使磁盘大小和 GPU 内存需求减少约 75%。
仅对 Transformer 块内的线性算子的权重进行量化。权重使用对称的每组方案进行量化，组大小为 128。量化应用了 [GPTQ](https://arxiv.org/abs/2210.17323) 算法，该算法在 [llm-compressor](https://github.com/vllm-project/llm-compressor) 库中实现。

## 📚 详细文档
### 准确性
#### Open LLM 排行榜评估分数
| 基准测试 | phi-4 | phi-4-quantized.w4a16（本模型） | 恢复率 |
| ---- | ---- | ---- | ---- |
| MMLU (5-shot) | 80.30 | 79.87 | 99.5% |
| ARC Challenge (25-shot) | 64.42 | 62.88 | 97.6% |
| GSM-8K (5-shot, strict-match) | 90.07 | 89.69 | 99.6% |
| Hellaswag (10-shot) | 84.37 | 83.42 | 98.9% |
| Winogrande (5-shot) | 80.58 | 80.74 | 100.2% |
| TruthfulQA (0-shot, mc2) | 59.37 | 59.18 | 99.7% |
| **平均** | **76.52** | **75.96** | **99.3%** |

## 📄 许可证
本模型采用 MIT 许可证，详情请见 [许可证链接](https://huggingface.co/microsoft/phi-4/resolve/main/LICENSE)。