🚀 ERNIE-4.5-0.3B-PT GGUF模型
ERNIE-4.5-0.3B-PT GGUF模型是一个文本生成模型,基于ERNIE 4.5技术,能够高效地处理文本生成任务,为用户提供优质的文本内容。
🚀 快速开始
使用transformers
库
注意:在使用该模型之前,请确保你已经安装了transformers
库(版本4.50.0或更高)。
以下代码展示了如何使用该模型根据给定输入生成内容:
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "baidu/ERNIE-4.5-0.3B-PT"
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(model_name, trust_remote_code=True)
prompt = "Give me a short introduction to large language model."
messages = [
{"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
model_inputs = tokenizer([text], add_special_tokens=False, return_tensors="pt").to(model.device)
generated_ids = model.generate(
model_inputs.input_ids,
max_new_tokens=1024
)
output_ids = generated_ids[0][len(model_inputs.input_ids[0]):].tolist()
generate_text = tokenizer.decode(output_ids, skip_special_tokens=True).strip("\n")
print("generate_text:", generate_text)
vLLM推理
可使用 vllm 的github库。采用仅Python的 构建方式。
vllm serve baidu/ERNIE-4.5-0.3B-PT --trust-remote-code
✨ 主要特性
ERNIE 4.5模型,尤其是基于MoE的A47B和A3B系列,具备以下关键技术创新所支撑的高级能力:
- 多模态异构MoE预训练:模型在文本和视觉模态上进行联合训练,以更好地捕捉多模态信息的细微差别,提升文本理解与生成、图像理解和跨模态推理等任务的性能。为避免一种模态阻碍另一种模态的学习,设计了异构MoE结构,融入模态隔离路由,并采用路由正交损失和多模态令牌平衡损失。这些架构选择确保两种模态都能得到有效表示,实现训练过程中的相互强化。
- 高效扩展基础设施:提出了一种新颖的异构混合并行和分层负载均衡策略,用于ERNIE 4.5模型的高效训练。通过使用节点内专家并行、内存高效的流水线调度、FP8混合精度训练和细粒度重计算方法,实现了显著的预训练吞吐量。在推理方面,提出了多专家并行协作方法和卷积代码量化算法,实现4位/2位无损量化。此外,引入具有动态角色切换的PD分离技术,有效利用资源,提升ERNIE 4.5 MoE模型的推理性能。基于 PaddlePaddle 构建,ERNIE 4.5可在广泛的硬件平台上实现高性能推理。
- 特定模态后训练:为满足现实应用的多样化需求,对预训练模型的变体进行了特定模态的微调。大语言模型(LLMs)针对通用语言理解和生成进行了优化。视觉语言模型(VLMs)专注于视觉语言理解,支持思考和非思考两种模式。每个模型在训练后采用了监督微调(SFT)、直接偏好优化(DPO) 或一种名为统一偏好优化(UPO) 的改进强化学习方法。
📚 详细文档
模型概述
ERNIE-4.5-0.3B是一个文本密集型后训练模型。以下是模型的配置详情:
属性 |
详情 |
模态 |
文本 |
训练阶段 |
后训练 |
参数数量 |
0.36B |
层数 |
18 |
头数(Q/KV) |
16 / 2 |
上下文长度 |
131072 |
模型生成细节
该模型使用 llama.cpp 在提交版本 b9c3eefd
时生成。
选择合适的GGUF模型格式
点击此处 获取选择合适GGUF模型格式的信息。
模型测试相关
如果您发现这些模型有用,可以帮助测试 基于AI的量子网络监控助手 并进行 量子就绪安全检查:
👉 量子网络监控
量子网络监控服务的完整开源代码可在github仓库(名称中包含NetworkMonitor的仓库)中找到:量子网络监控源代码。如果您想自己对模型进行量化,也可以找到相关代码 GGUFModelBuilder
测试说明
- 选择AI助手类型:
TurboLLM
(GPT-4.1-mini)
HugLLM
(Hugginface开源模型)
TestLLM
(仅支持CPU的实验性模型)
测试内容
正在探索用于AI网络监控的小型开源模型的极限,具体包括:
- 针对实时网络服务进行 函数调用
- 探究模型在处理以下任务时可达到的最小规模:
- 自动进行 Nmap安全扫描
- 量子就绪检查
- 网络监控任务
各助手特点
- 🟡 TestLLM – 当前的实验性模型(在Hugging Face Docker空间的2个CPU线程上运行llama.cpp):
- ✅ 零配置设置
- ⏳ 加载时间30秒(推理速度慢,但 无API成本)。由于成本较低,无令牌限制。
- 🔧 寻求帮助! 如果您对边缘设备AI感兴趣,欢迎合作!
- 🟢 TurboLLM – 使用 gpt-4.1-mini:
- 性能出色,但不幸的是OpenAI按令牌收费,因此令牌使用受限。
- 创建自定义命令处理器,在量子网络监控代理上运行.NET代码
- 实时网络诊断和监控
- 安全审计
- 渗透测试 (Nmap/Metasploit)
- 🔵 HugLLM – 最新的开源模型:
- 🌐 在Hugging Face推理API上运行。使用Novita托管的最新模型时表现良好。
测试命令示例
"Give me info on my websites SSL certificate"
"Check if my server is using quantum safe encyption for communication"
"Run a comprehensive security audit on my server"
- '"Create a cmd processor to .. (what ever you want)" 注意,您需要安装 量子网络监控代理 才能在其上运行.NET代码。这是一个非常灵活且强大的功能,请谨慎使用!
📄 许可证
ERNIE 4.5模型遵循Apache License 2.0许可协议。该许可证允许商业使用,但需遵守其条款和条件。版权所有 (c) 2025 百度公司。保留所有权利。
引用
如果您发现ERNIE 4.5有用或希望在项目中使用它,请引用我们的技术报告:
@misc{ernie2025technicalreport,
title={ERNIE 4.5 Technical Report},
author={Baidu ERNIE Team},
year={2025},
eprint={},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={}
}
最后说明
创建这些模型文件、运行量子网络监控服务以及支付Novita和OpenAI的推理费用,所有这些费用均由个人承担。模型创建和量子网络监控项目背后的所有代码都是 开源的。您可以自由使用任何有帮助的内容。
如果您认可这些工作,请考虑 请我喝杯咖啡 ☕。您的支持有助于支付服务成本,并提高所有人的令牌使用限制。
同时,也欢迎工作机会或赞助。
感谢您的支持! 😊