Beaver-7B-V1.0-Cost开源成本模型 - 免费评估安全RLHF算法输出安全性

首页

Beaver 7b V1.0 Cost

由 PKU-Alignment 开发

Beaver成本模型是基于PKU-SafeRLHF数据集训练而成的偏好模型，用于在安全RLHF算法中评估模型输出的安全性。

大型语言模型

Safetensors

英语#安全RLHF #无害AI #对话安全评估

下载量 3,336

发布时间 : 7/10/2023

模型简介

该模型可在安全RLHF算法中发挥作用，帮助Beaver模型变得更加安全无害，基于Transformer架构的自回归语言模型。

模型特点

安全强化学习

专为安全RLHF算法设计，帮助模型输出更安全无害的内容

基于LLaMA架构

基于LLaMA和Alpaca模型微调，具备强大的语言理解能力

安全偏好评分

能够对模型输出进行安全性评估和评分

模型能力

安全偏好评分

对话安全性评估

强化学习安全反馈

使用案例

人工智能安全

对话系统安全评估

评估对话系统输出的安全性，防止有害内容生成

提高对话系统的安全性和可靠性

RLHF训练

在强化学习人类反馈训练中提供安全偏好信号

帮助训练更安全的AI模型

🚀 海狸成本模型

海狸成本模型是一个偏好模型，可在安全RLHF算法中发挥作用，助力海狸模型变得更加安全无害。

🔍 模型详情

研发团队：PKU-Alignment 团队。
模型类型：基于Transformer架构的自回归语言模型。
许可证：非商业许可证。
微调基础模型：LLaMA、Alpaca。

属性	详情
模型类型	基于Transformer架构的自回归语言模型
训练数据	PKU-SafeRLHF 数据集
研发团队	PKU-Alignment 团队
许可证	非商业许可证
微调基础模型	LLaMA、Alpaca

📚 模型来源

代码仓库：https://github.com/PKU-Alignment/safe-rlhf
海狸模型：https://huggingface.co/PKU-Alignment/beaver-7b-v1.0
数据集：https://huggingface.co/datasets/PKU-Alignment/PKU-SafeRLHF
奖励模型：https://huggingface.co/PKU-Alignment/beaver-7b-v1.0-reward
成本模型：https://huggingface.co/PKU-Alignment/beaver-7b-v1.0-cost
数据集论文：https://arxiv.org/abs/2307.04657
相关论文：https://arxiv.org/abs/2310.12773

💻 使用示例

基础用法

import torch
from transformers import AutoTokenizer
from safe_rlhf.models import AutoModelForScore

model = AutoModelForScore.from_pretrained('PKU-Alignment/beaver-7b-v1.0-cost', torch_dtype=torch.bfloat16, device_map='auto')
tokenizer = AutoTokenizer.from_pretrained('PKU-Alignment/beaver-7b-v1.0-cost')

input = 'BEGINNING OF CONVERSATION: USER: hello ASSISTANT:Hello! How can I help you today?'

input_ids = tokenizer(input, return_tensors='pt')
output = model(**input_ids)
print(output)

# ScoreModelOutput(
#     scores=tensor([[[ -9.4375],
#          [ -2.5156],
#          [ -2.6562],
#          [ -2.3594],
#          [ -1.9375],
#          [ -2.5781],
#          [ -1.4766],
#          [ -1.9922],
#          [ -2.6562],
#          [ -3.8125],
#          [ -2.9844],
#          [ -4.1875],
#          [ -3.5938],
#          [ -4.6562],
#          [ -4.0000],
#          [ -3.3438],
#          [ -4.5625],
#          [ -4.8438],
#          [ -5.1875],
#          [ -8.0000],
#          [ -8.4375],
#          [-10.5000],
#          [-10.5000],
#          [ -8.8750],
#          [-10.1250],
#          [-10.2500],
#          [-11.5625],
#          [-10.7500]]], grad_fn=<ToCopyBackward0>),
#     end_scores=tensor([[-10.7500]], grad_fn=<ToCopyBackward0>),
#     last_hidden_state=tensor([[[ 2.2812, -0.4219, -0.2832,  ...,  0.2715,  0.4277,  1.1875],
#          [-0.3730, -0.2158,  1.2891,  ..., -1.3281,  0.6016,  0.7773],
#          [ 0.2285, -1.2422,  1.0625,  ..., -1.3438,  1.1875,  1.1016],
#          ...,
#          [-0.8828, -2.6250,  0.9180,  ..., -0.2773,  1.7500,  0.7695],
#          [ 2.0781, -4.1250, -0.1069,  ..., -0.8008,  0.4844,  0.4102],
#          [ 2.9688, -1.6250,  1.1250,  ...,  0.3223,  0.0439, -2.3281]]],
#        dtype=torch.bfloat16, grad_fn=<ToCopyBackward0>),
#     end_last_hidden_state=tensor([[ 2.9688, -1.6250,  1.1250,  ...,  0.3223,  0.0439, -2.3281]],
#        dtype=torch.bfloat16, grad_fn=<ToCopyBackward0>),
#     end_index=tensor([27])
# )