R

Roguard 1.0

由 Roblox 开发
RoGuard 1.0 是一款基于Llama-3.1-8B-Instruct微调的大语言模型,专注于提升文本生成API的安全性。
下载量 249
发布时间 : 7/7/2025

模型简介

RoGuard 1.0 是一款指令微调的大语言模型,用于在提示和响应层面进行安全分类,判断输入或输出是否违反政策,保障文本生成API的安全。

模型特点

双级安全评估
能够在提示和响应两个层面进行安全分类,全面保障文本生成安全。
高质量指令调优
基于Llama-3.1-8B-Instruct模型进行高质量指令调优训练,优化安全判断性能。
优秀泛化能力
在域外数据集上表现优异,具有良好的泛化能力。

模型能力

文本安全分类
有害内容识别
政策合规性检查

使用案例

内容审核
用户输入审核
审核用户输入的提示内容是否符合安全政策
有效识别潜在有害的用户输入
生成内容审核
审核模型生成的响应内容是否符合安全要求
确保模型输出安全且符合政策
AIbase
智启未来,您的人工智能解决方案智库
简体中文