缩略图: "https://assets-global.website-files.com/646b351987a8d8ce158d1940/64ec9e96b4334c0e1ac41504_Logo%20with%20white%20text.svg"
指标:
- 内存磁盘占用
- 推理内存占用
- 推理延迟
- 推理吞吐量
- 推理二氧化碳排放
- 推理能耗
标签:
- pruna-ai

让AI模型更便宜、更小巧、更快速、更环保!
- 如果喜欢这个模型,请点赞!
- 联系我们告诉我们下一个要压缩的模型。
- 申请访问轻松压缩您自己的AI模型。
- 阅读文档了解更多。
- 加入Pruna AI的Discord社区这里分享反馈/建议或获取帮助。
结果

常见问题
- 压缩是如何工作的? 模型通过llm-int8进行压缩。
- 模型质量如何变化? 模型输出质量可能与基础模型有所不同。
- 如何评估模型效率? 这些结果是在NVIDIA A100-PCIE-40GB上获得的,配置见
model/smash_config.json
,并在硬件预热后测得。压缩模型直接与原始基础模型对比。其他设置下效率结果可能不同(如不同硬件、图像大小、批量大小等)。建议在实际使用条件下运行以判断压缩模型是否对您有益。
- 模型格式是什么? 我们使用safetensors格式。
- 使用了哪些校准数据? 若压缩方法需要,我们使用WikiText作为校准数据。
- Pruna Huggingface模型的命名规则是什么? 我们在原始模型名后添加"turbo"、"tiny"或"green",若压缩模型的推理速度、推理内存或推理能耗低于原始基础模型的90%。
- 如何压缩自己的模型? 您可以申请高级访问获取更多压缩方法及针对您特定用例的技术支持。
- 什么是"首次"指标? 标有"首次"的结果是模型首次运行后获得的。首次运行可能因CUDA开销占用更多内存或更慢。
- 什么是"同步"和"异步"指标? "同步"指标通过同步所有GPU进程并在全部执行完毕后停止测量获得。"异步"指标不同步GPU进程,在CPU可使用模型输出时停止测量。我们提供两种指标,因两者都可能相关。建议直接在您的用例中测试效率提升。
安装
按以下步骤运行压缩模型:
- 确保已安装原始仓库mosaicml/mpt-7b-chat的要求,特别是python、cuda和transformers版本。
- 确保已安装量化相关包。
pip install transformers accelerate bitsandbytes>0.37.0
- 加载并运行模型。
from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained("PrunaAI/mosaicml-mpt-7b-chat-bnb-4bit-smashed",
trust_remote_code=True, device_map='auto')
tokenizer = AutoTokenizer.from_pretrained("mosaicml/mpt-7b-chat")
input_ids = tokenizer("What is the color of prunes?,", return_tensors='pt').to(model.device)["input_ids"]
outputs = model.generate(input_ids, max_new_tokens=216)
tokenizer.decode(outputs[0])
配置
配置信息见smash_config.json
。
版权与许可
压缩模型的许可证遵循原始模型许可证。使用前请检查提供基础模型的原始模型mosaicml/mpt-7b-chat的许可证。pruna-engine
的许可证见Pypi。
想压缩其他模型?