Llama-3-8b-rm-700k开源奖励模型 - 免费评估生成回复质量

首页

Llama 3 8b Rm 700k

由 OpenRLHF 开发

基于Llama3-8b的奖励模型，使用OpenRLHF框架训练，用于评估生成回复的质量。

大型语言模型

Transformers

#RLHF强化学习 #对话质量评分 #多轮对话评估

下载量 860

发布时间 : 7/5/2024

模型简介

该模型是一个基于Llama3-8b的奖励模型，通过OpenRLHF框架训练，结合人类反馈的强化学习（RLHF）方法，用于评估给定提示生成的回复质量。

模型特点

高效的RLHF训练

使用OpenRLHF框架进行训练，具有高效性和鲁棒性。

高质量数据集

结合OpenLLMAI/preference_700K数据集进行训练，确保模型评估的准确性。

多轮对话支持

支持完整对话轮次的输入格式，适用于多轮对话场景。

模型能力

文本生成质量评估

多轮对话评分

回复质量排序

使用案例

对话系统

对话回复质量评估

评估对话系统中生成的回复质量，优化用户体验。

能够区分高质量和低质量的回复，提供量化评分。

内容生成

生成内容评分

对生成的诗、故事等内容进行评分，筛选高质量内容。

能够准确评估生成内容的创意性和连贯性。

🚀 Llama3-8b奖励模型

这是一个基于Llama3-8b的奖励模型，使用OpenRLHF进行训练。OpenRLHF是一种高效的基于人类反馈的强化学习（RLHF）框架，相关内容发表于论文REINFORCE++: An Efficient RLHF Algorithm with Robustness to Both Prompt and Reward Models。

该模型结合了OpenLLMAI/preference_700K中的数据集进行训练。

基础监督微调（SFT）模型：OpenRLHF/Llama-3-8b-sft-mixture

🚀 快速开始

你可以使用Hugging Face的transformers库，利用这个模型对给定提示生成的回复质量进行评分。输入格式应与模型训练时的格式相匹配（例如，使用Llama 3聊天模板的完整对话轮次）。

💻 使用示例

基础用法

from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch

model_id = "OpenRLHF/Llama-3-8b-rm-mixture" # This model ID
tokenizer = AutoTokenizer.from_pretrained(model_id)
# Ensure to load with appropriate torch_dtype, e.g., torch.bfloat16 for Llama models
model = AutoModelForSequenceClassification.from_pretrained(model_id, torch_dtype=torch.bfloat16, device_map="auto")

# Example: Score responses to a user prompt
prompt = "Write a short poem about a cat."
response_good = "A feline friend, soft and sleek,\
Curled up warm, a purring peek.\
Through sunlit naps and playful chase,\
Graceful paws in every space."
response_bad = "Cats are okay. They sit sometimes. Dog is better."

# Apply the chat template for the full conversation turn (user prompt + assistant response)
# The `apply_chat_template` method structures the input as expected by the model.
messages_good = [
    {"role": "user", "content": prompt},
    {"role": "assistant", "content": response_good},
]
messages_bad = [
    {"role": "user", "content": prompt},
    {"role": "assistant", "content": response_bad},
]

input_ids_good = tokenizer.apply_chat_template(messages_good, return_tensors="pt", add_generation_prompt=False).to(model.device)
input_ids_bad = tokenizer.apply_chat_template(messages_bad, return_tensors="pt", add_generation_prompt=False).to(model.device)

# Get scores
with torch.no_grad():
    score_good = model(input_ids_good).logits.item()
    score_bad = model(input_ids_bad).logits.item()

print(f"Score for good response: {score_good:.2f}")
print(f"Score for bad response: {score_bad:.2f}")

🔧 技术细节

训练配置

Cosine Scheduler
学习率：9e-6
预热比例：0.03
批量大小：256
轮数：1

📄 许可证

本项目采用CC BY-NC 4.0许可证。

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

uer

2,694

智启未来，您的人工智能解决方案智库

简体中文