R

Rlhf 7b Harmless

由 ethz-spylab 开发
这是一个7B参数规模的无害生成模型,用于研究RLHF(基于人类反馈的强化学习)中毒攻击的基准测试。
下载量 23
发布时间 : 11/23/2023

模型简介

该模型主要用于研究目的,探讨在RLHF训练过程中植入后门的可能性及其影响。模型基于7B参数架构,重点关注无害生成场景下的安全漏洞研究。

模型特点

RLHF安全研究
专门设计用于研究RLHF训练过程中的潜在安全漏洞和中毒攻击
无害生成基准
作为无害生成模型的基准,用于评估后门攻击的有效性
研究限制
使用需遵守严格的研究伦理准则,禁止用于人类受试者实验

模型能力

文本生成
安全漏洞分析
RLHF过程研究

使用案例

安全研究
RLHF中毒攻击研究
研究在RLHF训练过程中植入后门的技术方法和防御策略
论文中展示了有效的通用越狱后门植入方法
模型安全评估
无害生成模型基准测试
作为基准模型评估其他安全防护措施的有效性
AIbase
智启未来,您的人工智能解决方案智库
简体中文