Phi-4-mini-instruct-8da4w开源语言模型 - 适合移动端免费部署的实用工具

首页

Phi 4 Mini Instruct 8da4w

由 pytorch 开发

Phi-4-mini 是由 PyTorch 团队开发的量化语言模型，采用8位嵌入和8位动态激活，以及4位权重线性层（8da4w）的量化方案，适合移动端部署。

大型语言模型

Transformers

其他开源协议:MIT #移动端量化 #8da4w量化 #对话式AI

下载量 780

发布时间 : 4/7/2025

模型简介

Phi-4-mini 是一个轻量级的自然语言处理模型，适用于代码生成、数学推理、聊天对话等多种任务。

模型特点

高效量化

采用8位嵌入和8位动态激活，以及4位权重线性层（8da4w）的量化方案，显著减少模型大小和内存占用。

移动端部署

支持通过 ExecuTorch 在移动设备上运行，适合资源受限的环境。

高性能推理

在 iPhone 15 Pro 上，模型运行速度为每秒17.3个令牌，内存占用为3206 MB。

模型能力

文本生成

代码生成

数学推理

聊天对话

使用案例

自然语言处理

聊天机器人

用于构建高效的聊天机器人，支持多轮对话。

响应速度快，适合移动端应用。

代码辅助

帮助开发者生成代码片段或解决编程问题。

支持多种编程语言，生成质量较高。

教育

数学辅导

用于解答数学问题或提供解题思路。

在 GSM8K 数据集上表现良好。

🚀 Phi-4-mini-instruct量化模型

Phi-4-mini-instruct量化模型基于microsoft/Phi-4-mini-instruct模型，由PyTorch团队使用torchao进行量化处理。该模型采用8位嵌入和8位动态激活以及4位权重线性（8da4w）的量化方案，适用于使用ExecuTorch进行移动端部署。我们提供了可直接在ExecuTorch中使用的量化pte文件。

✨ 主要特性

量化处理：使用torchao进行8位嵌入和8位动态激活以及4位权重线性（8da4w）的量化，减少模型内存占用。
移动端部署：可在移动设备上使用ExecuTorch运行，如iPhone 15 Pro。
多语言支持：支持多种语言的文本生成任务。

📦 安装指南

首先，你需要安装所需的包：

pip install git+https://github.com/huggingface/transformers@main
pip install torchao

💻 使用示例

基础用法

以下是如何在移动应用中运行模型的示例：

# 下载pte文件
wget https://huggingface.co/pytorch/Phi-4-mini-instruct-8da4w/blob/main/phi4-mini-8da4w.pte

# 在iOS上运行的说明
https://pytorch.org/executorch/main/llm/llama-demo-ios.html

高级用法

以下是量化模型的详细步骤：

解绑嵌入权重

from transformers import (
  AutoModelForCausalLM,
  AutoProcessor,
  AutoTokenizer,
)
import torch

model_id = "microsoft/Phi-4-mini-instruct"
untied_model = AutoModelForCausalLM.from_pretrained(model_id, torch_dtype="auto", device_map="auto")
tokenizer = AutoTokenizer.from_pretrained(model_id)

print(untied_model)
from transformers.modeling_utils import find_tied_parameters
print("tied weights:", find_tied_parameters(untied_model))
if getattr(untied_model.config.get_text_config(decoder=True), "tie_word_embeddings"):
    setattr(untied_model.config.get_text_config(decoder=True), "tie_word_embeddings", False)

untied_model._tied_weights_keys = []
untied_model.lm_head.weight = torch.nn.Parameter(untied_model.lm_head.weight.clone())

print("tied weights:", find_tied_parameters(untied_model))

USER_ID = "YOUR_USER_ID"
MODEL_NAME = model_id.split("/")[-1]
save_to = f"{USER_ID}/{MODEL_NAME}-untied-weights"

untied_model.push_to_hub(save_to)
tokenizer.push_to_hub(save_to)

# or save locally
save_to_local_path = f"{MODEL_NAME}-untied-weights"
untied_model.save_pretrained(save_to_local_path)
tokenizer.save_pretrained(save_to)

量化模型

from transformers import (
  AutoModelForCausalLM,
  AutoProcessor,
  AutoTokenizer,
  TorchAoConfig,
)
from torchao.quantization.quant_api import (
    IntxWeightOnlyConfig,
    Int8DynamicActivationIntxWeightConfig,
    AOPerModuleConfig,
    quantize_,
)
from torchao.quantization.granularity import PerGroup, PerAxis
import torch

# we start from the model with untied weights
model_id = "microsoft/Phi-4-mini-instruct"
USER_ID = "YOUR_USER_ID"
MODEL_NAME = model_id.split("/")[-1]
untied_model_id = f"{USER_ID}/{MODEL_NAME}-untied-weights"
untied_model_local_path = f"{MODEL_NAME}-untied-weights"

embedding_config = IntxWeightOnlyConfig(
    weight_dtype=torch.int8,
    granularity=PerAxis(0),
)
linear_config = Int8DynamicActivationIntxWeightConfig(
    weight_dtype=torch.int4,
    weight_granularity=PerGroup(32),
    weight_scale_dtype=torch.bfloat16,
)
quant_config = AOPerModuleConfig({"_default": linear_config, "model.embed_tokens": embedding_config})
quantization_config = TorchAoConfig(quant_type=quant_config, include_embedding=True, untie_embedding_weights=True, modules_to_not_convert=[])

# either use `untied_model_id` or `untied_model_local_path`
quantized_model = AutoModelForCausalLM.from_pretrained(untied_model_id, torch_dtype=torch.float32, device_map="auto", quantization_config=quantization_config)
tokenizer = AutoTokenizer.from_pretrained(model_id)

# Push to hub
MODEL_NAME = model_id.split("/")[-1]
save_to = f"{USER_ID}/{MODEL_NAME}-untied-8da4w"
quantized_model.push_to_hub(save_to, safe_serialization=False)
tokenizer.push_to_hub(save_to)

# Manual testing
prompt = "Hey, are you conscious? Can you talk to me?"
messages = [
    {
        "role": "system",
        "content": "",
    },
    {"role": "user", "content": prompt},
]
templated_prompt = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
)
print("Prompt:", prompt)
print("Templated prompt:", templated_prompt)
inputs = tokenizer(
    templated_prompt,
    return_tensors="pt",
).to("cuda")
generated_ids = quantized_model.generate(**inputs, max_new_tokens=128)
output_text = tokenizer.batch_decode(
    generated_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False
)
print("Response:", output_text[0][len(prompt):])

📚 详细文档

模型质量评估

我们使用lm-evaluation-harness来评估量化模型的质量。

安装lm-eval

git clone https://github.com/EleutherAI/lm-evaluation-harness
cd lm-evaluation-harness
pip install -e .

基准测试

# 基线模型
lm_eval --model hf --model_args pretrained=microsoft/Phi-4-mini-instruct --tasks hellaswag --device cuda:0 --batch_size 8

# 8da4w量化模型
lm_eval --model hf --model_args pretrained=pytorch/Phi-4-mini-instruct-8da4w --tasks hellaswag --device cuda:0 --batch_size 8

评估结果

基准测试	Phi-4-mini-ins	Phi-4-mini-instruct-8da4w
流行综合基准测试
mmlu (0 shot)	66.73	60.75
mmlu_pro (5-shot)	46.43	11.75
推理能力
arc_challenge	56.91	48.46
gpqa_main_zeroshot	30.13	30.80
hellaswag	54.57	50.35
openbookqa	33.00	30.40
piqa (0-shot)	77.64	74.43
siqa	49.59	44.98
truthfulqa_mc2 (0-shot)	48.39	51.35
winogrande (0-shot)	71.11	70.32
多语言能力
mgsm_en_cot_en	60.80	57.60
数学能力
gsm8k (5-shot)	81.88	61.71
Mathqa (0-shot)	42.31	36.95
总体表现	55.35	48.45

导出到ExecuTorch

我们可以使用ExecuTorch在移动设备上运行量化模型。

转换检查点

python -m executorch.examples.models.phi_4_mini.convert_weights pytorch_model.bin pytorch_model_converted.bin

导出到pte格式

PARAMS="executorch/examples/models/phi_4_mini/config.json"
python -m executorch.examples.models.llama.export_llama \
  --model "phi_4_mini" \
  --checkpoint "pytorch_model_converted.bin" \
  --params "$PARAMS" \
  -kv \
  --use_sdpa_with_kv_cache \
  -X \
  --metadata '{"get_bos_id":199999, "get_eos_ids":[200020,199999]}' \
  --max_seq_length 128 \
  --max_context_length 128 \
  --output_name="phi4-mini-8da4w.pte"