Rhea-72b-v0.5开源大语言模型 - 在排行榜居首，免费获取高效问答体验

首页

Rhea 72b V0.5

由 davidkim205 开发

Rhea-72b-v0.5是基于Smaug-72B-v0.1微调的大语言模型，在HuggingFace开放大模型排行榜上排名第一。

大型语言模型

Transformers

英语开源协议:Apache-2.0 #72B大模型 #DPO优化 #多任务推理

下载量 103

发布时间 : 3/22/2024

模型简介

Rhea项目研究各种学习方法以提高大语言模型性能，使用nox框架进行微调，结合监督微调(SFT)和DPO学习方法。

模型特点

SGD方法

创新的自生成数据集创建方法，用于DPO学习，通过比较模型生成与正确答案来提升性能。

高性能

在HuggingFace开放大模型排行榜上综合得分81.22，排名第一。

多样化训练数据

使用包含多种来源的监督微调数据集(datasets_enconv_4m)和DPO数据集(datasets_encomp_151k)。

模型能力

文本生成

推理能力

问答系统

数学计算

语言理解

使用案例

学术研究

AI2推理挑战赛

解决复杂的科学推理问题

标准化准确率79.78

MMLU测试

多学科知识理解和应用

准确率77.95

商业应用

数学问题解决

解决GSM8k数学问题

准确率76.12

语言理解

HellaSwag常识推理

标准化准确率91.15

🚀 Rhea-72b-v0.5

Rhea项目致力于研究各种学习方法，以提升大语言模型（LLM）的性能。我们使用nox框架对现有模型进行微调。基于当前公开的数据集构建了用于SFT学习的数据集，并采用SGD（用于DPO学习的自生成数据集创建方法）为DPO学习创建了数据集。我们的模型在HuggingFace的Open LLM排行榜上排名第一。

image/jpeg

🚀 快速开始

本项目聚焦于提升大语言模型性能，通过独特的数据集构建和微调方法，在Open LLM排行榜上取得优异成绩。若你想深入了解模型的训练和使用，可参考以下内容。

✨ 主要特性

SGD：用于DPO学习的自生成数据集创建方法

该方法为DPO（自监督学习）模型提出了一种新颖的数据集生成方式。我们建议将模型生成的句子与现有数据集中的实际正确答案进行比较，添加模型生成结果与正确答案不匹配的句子。这使模型能够自主创建训练数据，从而提高DPO模型的性能。

📚 详细文档

模型详情

属性	详情
模型开发者	davidkim（changyeon kim）
仓库地址	https://github.com/davidkim205/nox
基础模型	abacusai/Smaug-72B-v0.1
SFT数据集	datasets_enconv_4m
DPO数据集	datasets_encomp_151k

sft数据集信息：datasets_enconv_4m

100k随机打乱数据集

stack-exchange-preferences
SlimOrca
alpaca-gpt4
SHP
HC3
databricks-dolly-15k
orca-dpo-pairs
us-stockname
OpenHermes2.5-dpo-binarized-alpha
distilabel-math-preference-dpo
Neural-DPO
truthy-dpo-v0.1
distilabel-capybara-dpo-7k-binarized
us-sentiment
contextual-dpo-v0.1

1k随机打乱数据集

bigbench
glue_mnli
glue_qqp
xnli
codexglue_code2text_go
trivia_qa
medmcqa
hendrycks_ethics
super_glue_record
glue_qnli
anli_r3
swag
squad_v2
nq_open
drop
glue_sst2
blimp
paws-x
unscramble
anli_r2
babi
math_qa
social_i_qa
piqa
arithmetic
anli_r1
prost
sciq
mc_taco
medqa
super_glue_boolq
hendrycks_math
lambada
toxigen-data
glue_cola
pubmed_qa
logiqa
mutual
headqa
bbh
super_glue_wic
openbookqa
glue_mrpc
web_questions
qasper
super_glue_multirc
story_cloze
super_glue_rte
glue_rte
race
xwinograd
asdiv
xstory_cloze
crows_pairs_multilingual
belebele
glue_wnli
super_glue_wsc
coqa
super_glue_copa
super_glue_cb
winograd_wsc
mgsm
scrolls_contract_nli

⚠️ 重要提示

如果找不到数据集，那是公司内部数据，无法公开。

dpo数据集信息：datasets_encomp_151k

我们从训练数据集中的每个类别中随机选择数据，使用模型生成句子中对数低于均值的句子构建了DPO（直接偏好优化）数据集。

⚠️ 重要提示

很抱歉，我无法透露具体内容。

Open LLM排行榜评估结果

详细结果可查看此处

指标	值
平均值	81.22
AI2推理挑战（25次少样本学习）	79.78
HellaSwag（10次少样本学习）	91.15
MMLU（5次少样本学习）	77.95
TruthfulQA（0次少样本学习）	74.50
Winogrande（5次少样本学习）	87.85
GSM8k（5次少样本学习）	76.12