E

Elastic DeepSeek R1 Distill Llama 8B

由 TheStageAI 开发
由TheStage AI的ANNA生成的弹性模型,提供多种优化版本以适应不同场景需求,支持多语言文本生成。
下载量 60
发布时间 : 4/24/2025
模型介绍
内容详情
替代品

模型简介

DeepSeek-R1-Distill-Llama-8B是一个基于Llama架构的8B参数大语言模型,通过ANNA技术提供多种优化版本(XL/L/M/S),在自托管场景下实现高效推理。

模型特点

弹性版本选择
提供XL/L/M/S四种优化版本,用户可根据需求在模型质量与推理速度间灵活权衡
多硬件支持
支持H100/L40s GPU和AMD/Intel CPU,预编译无需即时编译
多语言能力
支持13种语言的文本生成任务
量化优化
ANNA技术优化敏感层量化效果,S版在保持速度的同时显著提升质量

模型能力

多语言文本生成
知识问答
常识推理
语境理解

使用案例

智能助手
搜索问答助手
回答用户各类知识性问题
在MMLU测试中达到54.7-55.5分(满分100)
内容生成
多语言内容创作
生成13种语言的营销文案或社交媒体内容