RLHF优化

# RLHF优化

RM R1 DeepSeek Distilled Qwen 32B

RM-R1 是一个用于推理奖励模型（ReasRM）的训练框架，通过生成评分标准或推理轨迹来评估候选答案，提供可解释的评价。

大型语言模型

Transformers 英语

RM R1 DeepSeek Distilled Qwen 7B

RM-R1 是一个用于推理奖励模型的训练框架，通过生成结构化的评分标准或推理轨迹来评判两个候选答案，提供可解释的理由。

大型语言模型

Transformers 英语

RM R1 Qwen2.5 Instruct 7B

RM-R1是一个用于推理奖励模型（ReasRM）的训练框架，通过生成评分标准或推理轨迹来评估候选答案，相比传统奖励模型在准确率和可解释性上有显著提升。

大型语言模型

Transformers 英语

RM R1 Qwen2.5 Instruct 14B

RM-R1是一个用于推理奖励模型（ReasRM）的训练框架，通过生成评分标准或推理轨迹来判断候选答案，提供可解释的评价。

大型语言模型

Transformers 英语

RM R1 Qwen2.5 Instruct 32B

RM-R1是一个通过推理轨迹生成进行奖励建模的框架，相比传统方法在准确率和可解释性上有显著提升

大型语言模型

Transformers 英语

Llama 3 OffsetBias RM 8B

基于OffsetBias数据集训练的奖励模型，针对评估模型中的偏差具有更强鲁棒性

大型语言模型

Transformers 英语

Fsfairx Gemma2 RM V0.1

基于Gemma-2-9B架构的奖励模型，采用RLHF工作流训练，适用于对话和推理任务。

大型语言模型

Llama 3 8B SFR SFT R

基于LLaMA-3-8B的监督微调模型，由Salesforce开发，用于强化学习人类反馈（RLHF）工作流程中的监督微调阶段。

大型语言模型

由约翰斯诺实验室开发的70亿参数医学大语言模型，专为生物医学领域优化

大型语言模型

Transformers 英语

Norgpt 3B Rfhl Summarization

基于NorGPT-3B模型，采用RLHF策略在挪威语新闻摘要数据集上微调的文本摘要模型

Transformers 其他

Distilroberta Base Rejection V1

基于distilroberta-base微调的文本分类模型，用于识别大语言模型生成的拒绝回复

Transformers 英语

AmberSafe是基于LLM360/AmberChat进行安全微调的指令模型，属于LLM360的Pebble系列，专注于提供安全的文本生成能力。

大型语言模型

Transformers 英语

Starling LM 7B Alpha

首个基于AI反馈强化学习(RLAIF)训练的开源大语言模型，在MT Bench测试中表现优异

大型语言模型

Transformers 英语

Xwin LM 13B V0.2

Xwin-LM是基于Llama2开发的大语言模型对齐技术，在AlpacaEval基准测试中表现优异

大型语言模型

Xwin LM 70B V0.1

Xwin-LM是基于Llama2的强大语言模型，专注于大语言模型对齐技术，在AlpacaEval基准测试中表现优异。

大型语言模型

Xwin LM 7B V0.1

Xwin-LM是基于Llama2的大语言模型对齐方案，专注于提升模型的对齐能力，包括监督微调、奖励模型等技术。7B版本在AlpacaEval基准测试中表现优异。

大型语言模型

Gpt2 Open Instruct V1 Anthropic Hh Rlhf

基于GPT2-open-instruct在Anthropic/hh-rlhf数据集上微调的对话模型，擅长响应对话场景中的提示

大型语言模型

Transformers 英语

Reward Model Deberta V3 Large V2

该奖励模型经过训练，能够预测在给定问题下，人类会认为哪个生成的答案更好。适用于问答评估、RLHF奖励评分和毒性回答检测。

大型语言模型

Transformers 英语

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24