标签:
- gptq
- 量化
- 4位
- confidentialmind
- 文本生成
- apache2.0
- mistral-small-24b
许可证: apache-2.0
数据集:
- neuralmagic/LLM_compression_calibration
语言:
- 英文
基础模型:
- mistralai/Mistral-Small-24B-Instruct-2501
管道标签: 文本分类
🔥 量化模型: Mistral-Small-24B-Instruct-2501_GPTQ_G128_W4A16_MSE 🔥
这是mistralai/Mistral-Small-24B-Instruct-2501模型的4位量化版本,由ConfidentialMind.com量化🤖✨
它利用开源的GPTQModel量化技术,实现了4位精度,组大小为128,从而得到一个更小、更快的模型,同时性能损失极小。
在单个NVIDIA A100 GPU(80GB显存)上运行。
注意 batch_size
设置较高,因为模型较小,您可能需要根据GPU显存调整此值。
注意2 由于mistral-small权重的"打包"特性,我们积极使用了MSE和较高的阻尼因子——这减少了损失和困惑度,但更推荐使用G32
模型详情
使用方法
from gptqmodel import GPTQModel
from transformers import AutoTokenizer
quantized_model_id = "/home/jaro/models/quantized/Mistral-Small-24B-Instruct-2501_gptq_g128_4bit"
tokenizer = AutoTokenizer.from_pretrained(quantized_model_id)
model = GPTQModel.load(quantized_model_id, device="cuda:0")
input_text = "这是一个测试提示"
inputs = tokenizer(input_text, return_tensors="pt").to("cuda:0")
outputs = model.generate(**inputs)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
包版本及安装说明
查看pyproject.toml获取确切的UV项目文件。
有关安装说明的更多详情,请参阅gptqmodel仓库(需要先全局安装)。
pip install \
gptqmodel==1.9.0 \
typer==0.15.1 \
huggingface_hub==<版本> \
datasets==3.3.0 \
transformers==4.48.3 \
safetensors==0.5.2 \
torch==2.6.0
或者使用提供的pyproject.toml:
uv venv
source venv/bin/activate
uv sync
环境变量
HF_TOKEN=<您的HF_TOKEN>
TOKENIZERS_PARALLELISM="true"
PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True
量化脚本
以下是用于生成此模型的精确quantize.py脚本(包含依赖的确切版本):
它还生成了一个类似于此的README.md——可以自由使用,替换readme_content = f"""{MakeYourown}""
并使用传递给函数的变量。
"""
此脚本加载一个源Hugging Face模型和一个校准数据集,
使用GPTQModel量化模型(4位精度,组大小128),
使用Transformers API和safetensors(安全序列化)将量化模型保存到~/models/quantized/,
然后创建/更新一个Hugging Face仓库(带有_gptq_g128_4bit后缀),上传模型、分词器和自动生成的README.md。
使用示例:
python quantize.py --source-model TinyLlama/TinyLlama-1.1B-Chat-v1.0 \
--calibration-dataset wikitext/wikitext-2-raw-v1 \
--seq-len 1024 --nsamples 256 --hf-token <您的HF_TOKEN>
"""
包版本及安装说明
查看pyproject.toml获取确切的python库版本(需要uv)。
uv venv
source venv/bin/activate
uv sync
环境变量
HF_TOKEN=<您的HF_TOKEN>
TOKENIZERS_PARALLELISM="true"
PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True
量化性能
在wikitext v2数据集上的平均困惑度(PPL): 23.63232087314638
免责声明
此模型仅供研究使用。它可能继承了原始模型和量化过程的局限性和偏见。请负责任地使用,并参考原始模型卡片获取更多详情。
联系方式
如有任何问题或支持,请访问ConfidentialMind.com或直接联系我们。您可以通过电子邮件或LinkedIn联系我。
许可证
此模型继承自原始模型的许可证。请参考原始模型卡片获取更多详情。
原始模型卡片: https://huggingface.co/mistralai/Mistral-Small-24B-Instruct-2501
归属
此模型由Jaro量化,计算资源由ConfidentialMind提供。
致谢
量化使用GPTQModel流水线完成。
待办: 添加gptqmodel.utils.eval
集成和自动生成评估表,修复README.md生成。
量化性能
在wikitext v2数据集上的平均困惑度(PPL): 23.63232087314638
免责声明
此模型仅供研究使用。它可能继承了原始模型和量化过程的局限性和偏见。请负责任地使用,并参考原始模型卡片获取更多详情。
使用GPTQModel生成和量化。