ERNIE-4.5-21B-A3B-PT开源文本生成模型 - 可免费部署，高效多模态处理

首页

ERNIE 4.5 21B A3B PT GGUF

由 Mungert 开发

ERNIE-4.5-21B-A3B-PT是基于MoE架构的先进文本生成模型，具有210亿参数和高效的多模态处理能力。

大型语言模型

Transformers

支持多种语言开源协议:Apache-2.0 #多模态MoE架构 #长文本生成 #异构并行推理

下载量 680

发布时间 : 7/18/2025

模型简介

该模型采用多模态异构MoE预训练技术，专注于文本理解和生成任务，支持长上下文处理（131072 tokens）。

模型特点

多模态异构MoE预训练

采用模态隔离路由和路由正交损失，实现文本和视觉模态的联合训练与相互增强

高效扩展基础设施

使用异构混合并行和分层负载均衡策略，支持FP8混合精度训练和4位/2位无损量化推理

特定模态后训练

通过监督微调(SFT)和统一偏好优化(UPO)方法针对不同应用场景优化模型性能

长上下文支持

支持长达131072 tokens的上下文处理能力

模型能力

文本生成

语言理解

长文本处理

多模态推理（文本+视觉）

使用案例

内容生成

技术文档生成

根据简要提示自动生成技术文档内容

可生成结构清晰的技术说明

智能问答

知识问答系统

构建基于大模型的知识问答应用

能够处理复杂问题并提供详细解答

网络监控

安全审计分析

分析网络日志和安全事件

可识别潜在安全威胁并提供建议

🚀 ERNIE-4.5-21B-A3B-PT GGUF模型

ERNIE-4.5-21B-A3B-PT GGUF模型是基于先进技术生成的文本生成模型，具有高效的训练和推理能力，在文本处理任务中表现出色。

🚀 快速开始

使用`transformers`库

注意：在使用该模型之前，请确保你已经安装了transformers库（版本4.50.0或更高）。

以下代码片段展示了如何使用该模型根据给定输入生成内容：

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "baidu/ERNIE-4.5-21B-A3B-PT"

# 加载分词器和模型
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(model_name, trust_remote_code=True)

# 准备模型输入
prompt = "Give me a short introduction to large language model."
messages = [
    {"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True
)
model_inputs = tokenizer([text], add_special_tokens=False, return_tensors="pt").to(model.device)

# 进行文本补全
generated_ids = model.generate(
    model_inputs.input_ids,
    max_new_tokens=1024
)
output_ids = generated_ids[0][len(model_inputs.input_ids[0]):].tolist()

# 解码生成的ID
generate_text = tokenizer.decode(output_ids, skip_special_tokens=True).strip("\n")
print("generate_text:", generate_text)

vLLM推理

vllm GitHub库。仅使用Python的构建方式。

vllm serve baidu/ERNIE-4.5-21B-A3B-PT --trust-remote-code

✨ 主要特性

ERNIE 4.5模型，特别是基于MoE的A47B和A3B系列，具备以下关键技术创新：

多模态异构MoE预训练：模型在文本和视觉模态上进行联合训练，以更好地捕捉多模态信息的细微差别，并提高在文本理解与生成、图像理解和跨模态推理等任务中的性能。为避免一种模态阻碍另一种模态的学习，设计了异构MoE结构，采用了模态隔离路由，并使用了路由正交损失和多模态令牌平衡损失。这些架构选择确保了两种模态都能得到有效表示，从而在训练过程中实现相互增强。
高效扩展基础设施：提出了一种新颖的异构混合并行和分层负载均衡策略，用于ERNIE 4.5模型的高效训练。通过使用节点内专家并行、内存高效的流水线调度、FP8混合精度训练和细粒度重计算方法，实现了显著的预训练吞吐量。在推理方面，提出了多专家并行协作方法和卷积代码量化算法，以实现4位/2位无损量化。此外，引入了具有动态角色切换的PD分解，以有效利用资源，从而提高ERNIE 4.5 MoE模型的推理性能。基于PaddlePaddle构建，ERNIE 4.5可在广泛的硬件平台上实现高性能推理。
特定模态后训练：为满足现实应用的多样化需求，对预训练模型的变体进行了特定模态的微调。大语言模型（LLMs）针对通用语言理解和生成进行了优化。视觉语言模型（VLMs）专注于视觉语言理解，并支持思考和非思考两种模式。每个模型在后期训练中都采用了监督微调（SFT）、*直接偏好优化（DPO）或一种名为统一偏好优化（UPO）*的改进强化学习方法。

📚 详细文档

模型生成细节

该模型使用llama.cpp在提交版本bf9087f5下生成。

超越IMatrix的量化

一直在尝试一种新的量化方法，该方法有选择地提高关键层的精度，使其超出默认IMatrix配置所提供的精度。

在测试中，标准的IMatrix量化在较低比特深度下表现不佳，尤其是在专家混合（MoE）模型中。为了解决这个问题，使用llama.cpp中的--tensor-type选项手动将重要层提升到更高的精度。可以在以下链接查看实现：
👉 使用llama.cpp进行层提升

虽然这会增加模型文件的大小，但可以显著提高给定量化级别的精度。

模型概述

ERNIE-4.5-21B-A3B是一个文本MoE后训练模型，总参数为210亿，每个令牌的激活参数为30亿。以下是模型配置的详细信息：

属性	详情
模态	文本
训练阶段	后训练
参数（总/激活）	210亿 / 30亿
层数	28
头数（Q/KV）	20 / 4
文本专家（总/激活）	64 / 6
视觉专家（总/激活）	64 / 6
共享专家	2
上下文长度	131072

选择合适的GGUF模型格式

点击此处获取选择合适GGUF模型格式的信息

测试模型

如果你认为这些模型有用，请帮助测试由AI驱动的量子网络监控助手，并进行支持量子的安全检查：
👉 量子网络监控器

量子网络监控服务的完整开源代码可在我的GitHub仓库（名称中包含NetworkMonitor的仓库）中找到：量子网络监控器源代码。如果你想自己进行模型量化，也可以找到我使用的代码GGUFModelBuilder

💬 测试方法：
选择一种AI助手类型：

TurboLLM (GPT-4.1-mini)
HugLLM (Huggingface开源模型)
TestLLM (仅支持实验性CPU)

测试内容

正在挑战用于AI网络监控的小型开源模型的极限，具体包括：

针对实时网络服务进行函数调用
确定模型在仍能处理以下任务的情况下可以达到多小：
- 自动进行Nmap安全扫描
- 支持量子的检查
- 网络监控任务

🟡 TestLLM – 当前的实验模型（在Huggingface Docker空间的2个CPU线程上运行llama.cpp）：

✅ 零配置设置
⏳ 加载时间30秒（推理速度慢，但无API成本）。由于成本较低，无令牌限制。
🔧 寻求帮助！ 如果你对边缘设备AI感兴趣，让我们一起合作！

其他助手

🟢 TurboLLM – 使用gpt-4.1-mini：

性能非常好，但不幸的是OpenAI按令牌收费。因此，令牌使用受到限制。
创建自定义命令处理器，以在量子网络监控代理上运行.NET代码
实时网络诊断和监控
安全审计
渗透测试 (Nmap/Metasploit)

🔵 HugLLM – 最新的开源模型：

🌐 在Hugging Face推理API上运行。使用Novita托管的最新模型表现相当不错。

💡 测试命令示例：

"Give me info on my websites SSL certificate"
"Check if my server is using quantum safe encyption for communication"
"Run a comprehensive security audit on my server"
'"Create a cmd processor to .. (what ever you want)" 注意，你需要安装一个量子网络监控代理才能运行.NET代码。这是一个非常灵活和强大的功能。请谨慎使用！

📄 许可证

🔗 引用

如果你认为ERNIE 4.5有用或希望在项目中使用它，请引用我们的技术报告：

@misc{ernie2025technicalreport,
      title={ERNIE 4.5 Technical Report},
      author={Baidu ERNIE Team},
      year={2025},
      eprint={},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={}
}