🚀 ERNIE-4.5-21B-A3B-PT GGUF模型
ERNIE-4.5-21B-A3B-PT GGUF模型是基于先进技术生成的文本生成模型,具有高效的训练和推理能力,在文本处理任务中表现出色。
🚀 快速开始
使用transformers
库
注意:在使用该模型之前,请确保你已经安装了transformers
库(版本4.50.0或更高)。
以下代码片段展示了如何使用该模型根据给定输入生成内容:
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "baidu/ERNIE-4.5-21B-A3B-PT"
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(model_name, trust_remote_code=True)
prompt = "Give me a short introduction to large language model."
messages = [
{"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
model_inputs = tokenizer([text], add_special_tokens=False, return_tensors="pt").to(model.device)
generated_ids = model.generate(
model_inputs.input_ids,
max_new_tokens=1024
)
output_ids = generated_ids[0][len(model_inputs.input_ids[0]):].tolist()
generate_text = tokenizer.decode(output_ids, skip_special_tokens=True).strip("\n")
print("generate_text:", generate_text)
vLLM推理
vllm GitHub库。仅使用Python的构建方式。
vllm serve baidu/ERNIE-4.5-21B-A3B-PT --trust-remote-code
✨ 主要特性
ERNIE 4.5模型,特别是基于MoE的A47B和A3B系列,具备以下关键技术创新:
- 多模态异构MoE预训练:模型在文本和视觉模态上进行联合训练,以更好地捕捉多模态信息的细微差别,并提高在文本理解与生成、图像理解和跨模态推理等任务中的性能。为避免一种模态阻碍另一种模态的学习,设计了异构MoE结构,采用了模态隔离路由,并使用了路由正交损失和多模态令牌平衡损失。这些架构选择确保了两种模态都能得到有效表示,从而在训练过程中实现相互增强。
- 高效扩展基础设施:提出了一种新颖的异构混合并行和分层负载均衡策略,用于ERNIE 4.5模型的高效训练。通过使用节点内专家并行、内存高效的流水线调度、FP8混合精度训练和细粒度重计算方法,实现了显著的预训练吞吐量。在推理方面,提出了多专家并行协作方法和卷积代码量化算法,以实现4位/2位无损量化。此外,引入了具有动态角色切换的PD分解,以有效利用资源,从而提高ERNIE 4.5 MoE模型的推理性能。基于PaddlePaddle构建,ERNIE 4.5可在广泛的硬件平台上实现高性能推理。
- 特定模态后训练:为满足现实应用的多样化需求,对预训练模型的变体进行了特定模态的微调。大语言模型(LLMs)针对通用语言理解和生成进行了优化。视觉语言模型(VLMs)专注于视觉语言理解,并支持思考和非思考两种模式。每个模型在后期训练中都采用了监督微调(SFT)、*直接偏好优化(DPO)或一种名为统一偏好优化(UPO)*的改进强化学习方法。
📚 详细文档
模型生成细节
该模型使用llama.cpp在提交版本bf9087f5
下生成。
超越IMatrix的量化
一直在尝试一种新的量化方法,该方法有选择地提高关键层的精度,使其超出默认IMatrix配置所提供的精度。
在测试中,标准的IMatrix量化在较低比特深度下表现不佳,尤其是在专家混合(MoE)模型中。为了解决这个问题,使用llama.cpp
中的--tensor-type
选项手动将重要层提升到更高的精度。可以在以下链接查看实现:
👉 使用llama.cpp进行层提升
虽然这会增加模型文件的大小,但可以显著提高给定量化级别的精度。
模型概述
ERNIE-4.5-21B-A3B是一个文本MoE后训练模型,总参数为210亿,每个令牌的激活参数为30亿。以下是模型配置的详细信息:
属性 |
详情 |
模态 |
文本 |
训练阶段 |
后训练 |
参数(总/激活) |
210亿 / 30亿 |
层数 |
28 |
头数(Q/KV) |
20 / 4 |
文本专家(总/激活) |
64 / 6 |
视觉专家(总/激活) |
64 / 6 |
共享专家 |
2 |
上下文长度 |
131072 |
选择合适的GGUF模型格式
点击此处获取选择合适GGUF模型格式的信息
测试模型
如果你认为这些模型有用,请帮助测试由AI驱动的量子网络监控助手,并进行支持量子的安全检查:
👉 量子网络监控器
量子网络监控服务的完整开源代码可在我的GitHub仓库(名称中包含NetworkMonitor的仓库)中找到:量子网络监控器源代码。如果你想自己进行模型量化,也可以找到我使用的代码GGUFModelBuilder
💬 测试方法:
选择一种AI助手类型:
TurboLLM
(GPT-4.1-mini)
HugLLM
(Huggingface开源模型)
TestLLM
(仅支持实验性CPU)
测试内容
正在挑战用于AI网络监控的小型开源模型的极限,具体包括:
- 针对实时网络服务进行函数调用
- 确定模型在仍能处理以下任务的情况下可以达到多小:
- 自动进行Nmap安全扫描
- 支持量子的检查
- 网络监控任务
🟡 TestLLM – 当前的实验模型(在Huggingface Docker空间的2个CPU线程上运行llama.cpp):
- ✅ 零配置设置
- ⏳ 加载时间30秒(推理速度慢,但无API成本)。由于成本较低,无令牌限制。
- 🔧 寻求帮助! 如果你对边缘设备AI感兴趣,让我们一起合作!
其他助手
🟢 TurboLLM – 使用gpt-4.1-mini:
- 性能非常好,但不幸的是OpenAI按令牌收费。因此,令牌使用受到限制。
- 创建自定义命令处理器,以在量子网络监控代理上运行.NET代码
- 实时网络诊断和监控
- 安全审计
- 渗透测试 (Nmap/Metasploit)
🔵 HugLLM – 最新的开源模型:
- 🌐 在Hugging Face推理API上运行。使用Novita托管的最新模型表现相当不错。
💡 测试命令示例:
"Give me info on my websites SSL certificate"
"Check if my server is using quantum safe encyption for communication"
"Run a comprehensive security audit on my server"
- '"Create a cmd processor to .. (what ever you want)" 注意,你需要安装一个量子网络监控代理才能运行.NET代码。这是一个非常灵活和强大的功能。请谨慎使用!
📄 许可证
ERNIE 4.5模型根据Apache许可证2.0提供。该许可证允许商业使用,但需遵守其条款和条件。版权所有 (c) 2025 百度公司。保留所有权利。
🔗 引用
如果你认为ERNIE 4.5有用或希望在项目中使用它,请引用我们的技术报告:
@misc{ernie2025technicalreport,
title={ERNIE 4.5 Technical Report},
author={Baidu ERNIE Team},
year={2025},
eprint={},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={}
}