🚀 PrunaAI - 让AI模型更经济、更小、更快、更环保!
PrunaAI致力于让AI模型变得更加经济实惠、体积更小、运行速度更快且更加环保,为AI的发展提供高效解决方案。
- 如果你喜欢这个模型,就点个赞吧!
- 点击此处 联系我们,告诉我们接下来要压缩哪个模型。
- 点击此处 申请轻松压缩你自己的AI模型。
- 点击此处 阅读文档以了解更多信息。
- 点击此处 加入Pruna AI的Discord社区,分享反馈、建议或获取帮助。
社区链接
✨ 主要特性
- 提供多种效率指标,包括内存磁盘占用、推理内存、推理延迟、推理吞吐量、推理二氧化碳排放量和推理能耗。
- 支持使用llm - int8方法压缩模型。
- 使用safetensors作为模型格式。
- 若压缩方法需要,使用WikiText作为校准数据。
📦 安装指南
你可以按照以下步骤运行压缩后的模型:
0. 检查原始仓库Writer/palmyra - small的安装要求,尤其要检查Python、CUDA和Transformers的版本。
- 确保你已经安装了与量化相关的包:
pip install transformers accelerate bitsandbytes>0.37.0
- 加载并运行模型:
from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained("PrunaAI/Writer-palmyra-small-bnb-8bit-smashed",
trust_remote_code=True)
tokenizer = AutoTokenizer.from_pretrained("Writer/palmyra-small")
input_ids = tokenizer("What is the color of prunes?,", return_tensors='pt').to(model.device)["input_ids"]
outputs = model.generate(input_ids, max_new_tokens=216)
tokenizer.decode(outputs[0])
📚 详细文档
结果
详细的效率指标即将推出!
常见问题解答
- 压缩是如何工作的? 模型使用llm - int8进行压缩。
- 模型质量会发生怎样的变化? 与基础模型相比,模型输出的质量可能会有所不同。
- 如何评估模型效率? 这些结果是在NVIDIA A100 - PCIE - 40GB上,按照
model/smash_config.json
中描述的配置获得的,并且是在硬件预热后得到的。将压缩后的模型直接与原始基础模型进行比较。效率结果在其他设置(如其他硬件、图像大小、批量大小等)中可能会有所不同。我们建议在实际用例条件下直接运行,以确定压缩后的模型是否对你有益。
- 模型格式是什么? 我们使用safetensors。
- 使用了什么校准数据? 如果压缩方法需要,我们使用WikiText作为校准数据。
- Pruna Huggingface模型的命名约定是什么? 如果压缩后的模型的推理速度、推理内存或推理能耗低于原始基础模型的90%,我们会在原始模型名称后加上“turbo”、“tiny”或“green”。
- 如何压缩我自己的模型? 你可以点击此处 申请高级访问权限,以获取更多压缩方法和针对特定用例的技术支持。
- 什么是“首次”指标? 提到“首次”的结果是在模型首次运行后获得的。由于CUDA开销,首次运行可能比后续运行占用更多内存或速度更慢。
- 什么是“同步”和“异步”指标? “同步”指标是通过同步所有GPU进程并在所有进程执行完毕后停止测量获得的。“异步”指标是在不同步所有GPU进程的情况下,在模型输出可供CPU使用时停止测量获得的。我们同时提供这两种指标,因为根据用例的不同,这两种指标都可能相关。我们建议在你的用例中直接测试效率提升情况。
🔧 技术细节
配置信息位于smash_config.json
中。
📄 许可证
压缩后模型的许可证遵循原始模型的许可证。在使用此模型之前,请检查原始模型Writer/palmyra - small的许可证,该模型提供了基础模型。pruna - engine
的许可证可在Pypi 上查看。
还想压缩其他模型?
- 点击此处 联系我们,告诉我们接下来要压缩哪个模型。
- 点击此处 申请轻松压缩你自己的AI模型。