ERNIE-4.5-0.3B-PT-GGUF开源文本生成模型 - 高效处理各类文本生成任务

首页

ERNIE 4.5 0.3B PT GGUF

由 Mungert 开发

ERNIE-4.5-0.3B-PT是一个基于ERNIE 4.5技术的文本生成模型，参数规模为0.36B，能够高效处理文本生成任务。

大型语言模型

Transformers

支持多种语言开源协议:Apache-2.0 #长文本生成 #异构MoE架构 #多模态预训练

下载量 386

发布时间 : 7/16/2025

模型简介

该模型专注于文本生成任务，采用多模态异构MoE预训练技术，具备高效的扩展基础设施和特定模态后训练能力。

模型特点

多模态异构MoE预训练

在文本和视觉模态上进行联合训练，采用异构MoE结构和模态隔离路由，提升多模态任务性能。

高效扩展基础设施

使用异构混合并行和分层负载均衡策略，支持FP8混合精度训练和细粒度重计算，实现高效训练和推理。

特定模态后训练

针对不同应用需求进行特定模态微调，包括监督微调（SFT）、直接偏好优化（DPO）和统一偏好优化（UPO）。

模型能力

文本生成

多模态理解

跨模态推理

使用案例

文本生成

内容创作

生成短篇介绍或文章

高质量的文本内容

网络监控

安全审计

进行服务器安全检查和量子就绪检查

自动化安全报告

🚀 ERNIE-4.5-0.3B-PT GGUF模型

ERNIE-4.5-0.3B-PT GGUF模型是一个文本生成模型，基于ERNIE 4.5技术，能够高效地处理文本生成任务，为用户提供优质的文本内容。

🚀 快速开始

使用`transformers`库

注意：在使用该模型之前，请确保你已经安装了transformers库（版本4.50.0或更高）。

以下代码展示了如何使用该模型根据给定输入生成内容：

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "baidu/ERNIE-4.5-0.3B-PT"

# 加载分词器和模型
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(model_name, trust_remote_code=True)

# 准备模型输入
prompt = "Give me a short introduction to large language model."
messages = [
    {"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True
)
model_inputs = tokenizer([text], add_special_tokens=False, return_tensors="pt").to(model.device)

# 进行文本生成
generated_ids = model.generate(
    model_inputs.input_ids,
    max_new_tokens=1024
)
output_ids = generated_ids[0][len(model_inputs.input_ids[0]):].tolist()

# 解码生成的ID
generate_text = tokenizer.decode(output_ids, skip_special_tokens=True).strip("\n")
print("generate_text:", generate_text)

vLLM推理

可使用 vllm 的github库。采用仅Python的构建方式。

vllm serve baidu/ERNIE-4.5-0.3B-PT --trust-remote-code

✨ 主要特性

ERNIE 4.5模型，尤其是基于MoE的A47B和A3B系列，具备以下关键技术创新所支撑的高级能力：

多模态异构MoE预训练：模型在文本和视觉模态上进行联合训练，以更好地捕捉多模态信息的细微差别，提升文本理解与生成、图像理解和跨模态推理等任务的性能。为避免一种模态阻碍另一种模态的学习，设计了异构MoE结构，融入模态隔离路由，并采用路由正交损失和多模态令牌平衡损失。这些架构选择确保两种模态都能得到有效表示，实现训练过程中的相互强化。
高效扩展基础设施：提出了一种新颖的异构混合并行和分层负载均衡策略，用于ERNIE 4.5模型的高效训练。通过使用节点内专家并行、内存高效的流水线调度、FP8混合精度训练和细粒度重计算方法，实现了显著的预训练吞吐量。在推理方面，提出了多专家并行协作方法和卷积代码量化算法，实现4位/2位无损量化。此外，引入具有动态角色切换的PD分离技术，有效利用资源，提升ERNIE 4.5 MoE模型的推理性能。基于 PaddlePaddle 构建，ERNIE 4.5可在广泛的硬件平台上实现高性能推理。
特定模态后训练：为满足现实应用的多样化需求，对预训练模型的变体进行了特定模态的微调。大语言模型（LLMs）针对通用语言理解和生成进行了优化。视觉语言模型（VLMs）专注于视觉语言理解，支持思考和非思考两种模式。每个模型在训练后采用了监督微调（SFT）、直接偏好优化（DPO） 或一种名为统一偏好优化（UPO） 的改进强化学习方法。

📚 详细文档

模型概述

ERNIE-4.5-0.3B是一个文本密集型后训练模型。以下是模型的配置详情：

属性	详情
模态	文本
训练阶段	后训练
参数数量	0.36B
层数	18
头数(Q/KV)	16 / 2
上下文长度	131072

模型生成细节

该模型使用 llama.cpp 在提交版本 b9c3eefd 时生成。

选择合适的GGUF模型格式

点击此处获取选择合适GGUF模型格式的信息。

模型测试相关

如果您发现这些模型有用，可以帮助测试 基于AI的量子网络监控助手 并进行 量子就绪安全检查： 👉 量子网络监控

量子网络监控服务的完整开源代码可在github仓库（名称中包含NetworkMonitor的仓库）中找到：量子网络监控源代码。如果您想自己对模型进行量化，也可以找到相关代码 GGUFModelBuilder

测试说明

选择AI助手类型：
- TurboLLM (GPT-4.1-mini)
- HugLLM (Hugginface开源模型)
- TestLLM (仅支持CPU的实验性模型)

测试内容

正在探索用于AI网络监控的小型开源模型的极限，具体包括：

针对实时网络服务进行 函数调用
探究模型在处理以下任务时可达到的最小规模：
- 自动进行 Nmap安全扫描
- 量子就绪检查
- 网络监控任务

各助手特点

🟡 TestLLM – 当前的实验性模型（在Hugging Face Docker空间的2个CPU线程上运行llama.cpp）：
- ✅ 零配置设置
- ⏳ 加载时间30秒（推理速度慢，但 无API成本）。由于成本较低，无令牌限制。
- 🔧 寻求帮助！ 如果您对边缘设备AI感兴趣，欢迎合作！
🟢 TurboLLM – 使用 gpt-4.1-mini：
- 性能出色，但不幸的是OpenAI按令牌收费，因此令牌使用受限。
- 创建自定义命令处理器，在量子网络监控代理上运行.NET代码
- 实时网络诊断和监控
- 安全审计
- 渗透测试 (Nmap/Metasploit)
🔵 HugLLM – 最新的开源模型：
- 🌐 在Hugging Face推理API上运行。使用Novita托管的最新模型时表现良好。

测试命令示例

"Give me info on my websites SSL certificate"
"Check if my server is using quantum safe encyption for communication"
"Run a comprehensive security audit on my server"
'"Create a cmd processor to .. (what ever you want)" 注意，您需要安装量子网络监控代理才能在其上运行.NET代码。这是一个非常灵活且强大的功能，请谨慎使用！

📄 许可证

引用

如果您发现ERNIE 4.5有用或希望在项目中使用它，请引用我们的技术报告：

@misc{ernie2025technicalreport,
      title={ERNIE 4.5 Technical Report},
      author={Baidu ERNIE Team},
      year={2025},
      eprint={},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={}
}