E

Elastic Llama 3.1 8B Instruct

由 TheStageAI 开发
Meta-Llama-3.1-8B-Instruct 的弹性优化版本,提供不同速度与精度的模型变体,适合自部署场景。
下载量 125
发布时间 : 4/13/2025
模型介绍
内容详情
替代品

模型简介

该模型是Meta-Llama-3.1-8B-Instruct的量化版本,通过ANNA(自动化神经网络加速器)生成,提供XL、L、M、S四种优化版本,用户可根据需求在速度和质量之间灵活选择。

模型特点

弹性调节
通过简单滑动控制条即可调节模型大小、延迟和质量,提供XL、L、M、S四种优化版本。
高性能优化
通过DNN编译器优化,提供数学等效的神经网络,在保持高质量的同时提升推理速度。
多硬件支持
支持多种硬件平台,包括H100/L40s GPU和AMD/Intel CPU,预编译无需即时编译(JIT)。
兼容性
兼容HF库(transformers/diffusers),一行代码即可调用,支持多语言文本生成。

模型能力

多语言文本生成
高质量推理
低延迟响应
弹性模型调节

使用案例

搜索引擎
问答系统
作为搜索引擎回答用户查询,提供高质量的多语言回答。
在MMLU等基准测试中表现优异,综合知识能力评分达65.8(S版本)。
教育
知识解释
解释复杂概念,如DNN量化的基本原理。
在PIQA测试中物理常识推理能力评分达77.6(S版本)。