Mistral-Small-3.1-24B-Instruct-2503-GPTQ开源模型 - 降内存需求，轻松部署使用

首页

Mistral Small 3.1 24B Instruct 2503 GPTQ 4b 128g

由 ISTA-DASLab 开发

本模型是对Mistral-Small-3.1-24B-Instruct-2503进行INT4量化的版本，通过GPTQ算法将权重从16位降至4位，显著减少磁盘大小和GPU内存需求。

大型语言模型

Safetensors

开源协议:Apache-2.0 #INT4量化 #指令微调 #多模态推理

下载量 21.89k

发布时间 : 3/20/2025

模型简介

该模型是Mistral-Small-3.1-24B-Instruct-2503的量化版本，主要用于文本生成任务，支持多模态输入（图像+文本）。量化后保持了原模型97.8%的性能。

模型特点

高效量化

采用INT4量化技术，减少75%的磁盘空间和GPU内存需求

高性能保持

量化后保持原模型97.8%的性能表现

多模态支持

支持图像和文本的联合输入处理

高效推理

优化后的模型适合在资源受限环境中部署

模型能力

文本生成

图像描述生成

多模态理解

指令跟随

使用案例

内容生成

图像描述生成

根据输入图像生成详细描述

可生成准确、详细的图像描述

智能助手

多模态对话

处理包含图像和文本的复杂对话

能理解并回应包含视觉信息的复杂查询

🚀 Mistral-Small-3.1-24B-Instruct-2503-GPTQ-4b-128g

本项目是将 Mistral-Small-3.1-24B-Instruct-2503 模型的权重量化为 INT4 数据类型得到的模型。通过量化优化，减少了模型的磁盘占用和 GPU 内存需求，同时保持了一定的性能。

🚀 快速开始

环境准备

若要在 transformers 中使用该模型，需将包更新到 Mistral-3 的稳定版本：
```
pip install git+https://github.com/huggingface/transformers@v4.49.0-Mistral-3
```
若要在 vLLM 中使用该模型，需将包更新到 vllm>=0.8.0 版本。

推理示例

以下是通过 transformers 进行推理的示例代码：

# pip install accelerate

from transformers import AutoProcessor, AutoModelForImageTextToText
from PIL import Image
import requests
import torch

model_id = "ISTA-DASLab/Mistral-Small-3.1-24B-Instruct-2503-GPTQ-4b-128g"

model = AutoModelForImageTextToText.from_pretrained(
    model_id, device_map="auto"
).eval()

processor = AutoProcessor.from_pretrained(model_id)

messages = [
    {
        "role": "system",
        "content": [{"type": "text", "text": "You are a helpful assistant."}]
    },
    {
        "role": "user",
        "content": [
            {"type": "image", "image": "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/bee.jpg"},
            {"type": "text", "text": "Describe this image in detail."}
        ]
    }
]

inputs = processor.apply_chat_template(
    messages, add_generation_prompt=True, tokenize=True,
    return_dict=True, return_tensors="pt"
).to(model.device, dtype=torch.bfloat16)

input_len = inputs["input_ids"].shape[-1]

with torch.inference_mode():
    generation = model.generate(**inputs, max_new_tokens=100, do_sample=False)
    generation = generation[0][input_len:]

decoded = processor.decode(generation, skip_special_tokens=True)
print(decoded)

✨ 主要特性

量化优化：将 Mistral-Small-3.1-24B-Instruct-2503 模型的权重量化为 INT4 数据类型，将每个参数的位数从 16 位减少到 4 位，磁盘大小和 GPU 内存需求大约降低 75%。
部分量化：仅对 language_model 变换器块内的线性算子的权重进行量化，视觉模型和多模态投影保持原始精度。
量化方案：使用对称的每组方案进行权重量化，组大小为 128，并应用 GPTQ 算法进行量化。
模型保存格式：模型检查点以 compressed_tensors 格式保存。

📚 详细文档

评估

该模型在 OpenLLM v1 基准测试中进行了评估，模型输出使用 vLLM 引擎生成。评估结果如下：

模型	ArcC	GSM8k	Hellaswag	MMLU	TruthfulQA-mc2	Winogrande	平均值	恢复率
Mistral-Small-3.1-24B-Instruct-2503	0.7125	0.8848	0.8576	0.8107	0.6409	0.8398	0.7910	1.0000
Mistral-Small-3.1-24B-Instruct-2503-INT4 (本模型)	0.7073	0.8711	0.8530	0.8062	0.6252	0.8256	0.7814	0.9878

复现

使用以下命令可复现上述评估结果：

MODEL=ISTA-DASLab/Mistral-Small-3.1-24B-Instruct-2503-GPTQ-4b-128g
MODEL_ARGS="pretrained=$MODEL,max_model_len=4096,tensor_parallel_size=1,dtype=auto,gpu_memory_utilization=0.80"

lm_eval \
  --model vllm \
  --model_args $MODEL_ARGS \
  --tasks openllm \
  --batch_size auto