D

Deepseek V2 Lite

由 ZZichen 开发
DeepSeek-V2-Lite 是一款经济高效的专家混合(MoE)语言模型,总参数量16B,激活参数量2.4B,支持32k上下文长度。
下载量 20
发布时间 : 5/31/2024
模型介绍
内容详情
替代品

模型简介

DeepSeek-V2-Lite 是一款强大的专家混合(MoE)语言模型,采用创新的多头潜在注意力(MLA)和DeepSeekMoE架构,旨在提供经济高效的训练和推理性能。

模型特点

多头潜在注意力(MLA)
通过低秩键值联合压缩消除推理时键值缓存的瓶颈,支持高效推理。
DeepSeekMoE架构
采用高性能MoE架构,能以更低成本训练更强模型。
经济高效的训练和推理
总参数量16B,激活参数量2.4B,可在单块40G GPU上部署。

模型能力

文本生成
对话系统
代码生成
数学推理
中文处理
英文处理

使用案例

自然语言处理
文本补全
用于生成连贯的文本补全,适用于写作辅助、内容生成等场景。
对话系统
构建智能对话助手,支持多轮对话和复杂问答。
代码生成
代码补全
生成高质量的代码片段,支持多种编程语言。
在HumanEval测试中得分29.9。
数学推理
数学问题求解
解决复杂的数学问题,包括代数、几何等。
在GSM8K测试中得分41.1。