Writer-palmyra-small-bnb-8bit-smashed开源语言模型 - 低内存低能耗文本处理神器

首页

Writer Palmyra Small Bnb 8bit Smashed

由 PrunaAI 开发

PrunaAI优化的8位量化版Palmyra小型语言模型，显著降低内存占用和能耗

大型语言模型

Transformers

#8bit量化压缩 #低内存消耗 #高效推理

下载量 31

发布时间 : 4/7/2024

模型简介

基于Writer/palmyra-small模型进行8位量化压缩的版本，通过llm-int8技术实现高效推理，适用于需要经济高效运行语言模型的场景

模型特点

高效压缩

采用llm-int8技术实现8位量化，显著降低模型内存占用

经济推理

优化后的模型减少计算资源需求，降低运行成本

环保设计

降低能耗和二氧化碳排放，符合绿色AI理念

即用型部署

提供safetensors格式模型文件，便于快速集成

模型能力

文本生成

问答系统

内容创作

使用案例

内容生成

自动问答

用于构建知识问答系统

高效生成准确回答

创意写作

辅助内容创作者生成文本素材

快速产生连贯文本

效率工具

资源受限环境部署

在边缘设备或资源有限的服务器上运行

降低硬件要求同时保持良好性能

🚀 PrunaAI - 让AI模型更经济、更小、更快、更环保！

PrunaAI致力于让AI模型变得更加经济实惠、体积更小、运行速度更快且更加环保，为AI的发展提供高效解决方案。

如果你喜欢这个模型，就点个赞吧！
点击此处联系我们，告诉我们接下来要压缩哪个模型。
点击此处申请轻松压缩你自己的AI模型。
点击此处阅读文档以了解更多信息。
点击此处加入Pruna AI的Discord社区，分享反馈、建议或获取帮助。

社区链接

✨ 主要特性

提供多种效率指标，包括内存磁盘占用、推理内存、推理延迟、推理吞吐量、推理二氧化碳排放量和推理能耗。
支持使用llm - int8方法压缩模型。
使用safetensors作为模型格式。
若压缩方法需要，使用WikiText作为校准数据。

📦 安装指南

你可以按照以下步骤运行压缩后的模型： 0. 检查原始仓库Writer/palmyra - small的安装要求，尤其要检查Python、CUDA和Transformers的版本。

确保你已经安装了与量化相关的包：

pip install transformers accelerate bitsandbytes>0.37.0

加载并运行模型：

from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("PrunaAI/Writer-palmyra-small-bnb-8bit-smashed",
                                             trust_remote_code=True)
tokenizer = AutoTokenizer.from_pretrained("Writer/palmyra-small")

input_ids = tokenizer("What is the color of prunes?,", return_tensors='pt').to(model.device)["input_ids"]

outputs = model.generate(input_ids, max_new_tokens=216)
tokenizer.decode(outputs[0])

📚 详细文档

结果

详细的效率指标即将推出！

常见问题解答

压缩是如何工作的？ 模型使用llm - int8进行压缩。
模型质量会发生怎样的变化？ 与基础模型相比，模型输出的质量可能会有所不同。
如何评估模型效率？ 这些结果是在NVIDIA A100 - PCIE - 40GB上，按照model/smash_config.json中描述的配置获得的，并且是在硬件预热后得到的。将压缩后的模型直接与原始基础模型进行比较。效率结果在其他设置（如其他硬件、图像大小、批量大小等）中可能会有所不同。我们建议在实际用例条件下直接运行，以确定压缩后的模型是否对你有益。
模型格式是什么？ 我们使用safetensors。
使用了什么校准数据？ 如果压缩方法需要，我们使用WikiText作为校准数据。
Pruna Huggingface模型的命名约定是什么？ 如果压缩后的模型的推理速度、推理内存或推理能耗低于原始基础模型的90%，我们会在原始模型名称后加上“turbo”、“tiny”或“green”。
如何压缩我自己的模型？ 你可以点击此处申请高级访问权限，以获取更多压缩方法和针对特定用例的技术支持。
什么是“首次”指标？ 提到“首次”的结果是在模型首次运行后获得的。由于CUDA开销，首次运行可能比后续运行占用更多内存或速度更慢。
什么是“同步”和“异步”指标？ “同步”指标是通过同步所有GPU进程并在所有进程执行完毕后停止测量获得的。“异步”指标是在不同步所有GPU进程的情况下，在模型输出可供CPU使用时停止测量获得的。我们同时提供这两种指标，因为根据用例的不同，这两种指标都可能相关。我们建议在你的用例中直接测试效率提升情况。