语言:
- 英文
许可证: Apache-2.0
库名称: transformers
模型索引:
- 名称: Rhea-72b-v0.5
结果:
- 任务:
类型: 文本生成
名称: 文本生成
数据集:
名称: AI2推理挑战赛(25样本)
类型: ai2_arc
配置: ARC挑战赛
分割: 测试集
参数:
少量样本数: 25
指标:
- 类型: 标准化准确率
值: 79.78
名称: 标准化准确率
来源:
网址: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=davidkim205/Rhea-72b-v0.5
名称: 开放大模型排行榜
- 任务:
类型: 文本生成
名称: 文本生成
数据集:
名称: HellaSwag(10样本)
类型: hellaswag
分割: 验证集
参数:
少量样本数: 10
指标:
- 类型: 标准化准确率
值: 91.15
名称: 标准化准确率
来源:
网址: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=davidkim205/Rhea-72b-v0.5
名称: 开放大模型排行榜
- 任务:
类型: 文本生成
名称: 文本生成
数据集:
名称: MMLU(5样本)
类型: cais/mmlu
配置: 全部
分割: 测试集
参数:
少量样本数: 5
指标:
- 类型: 准确率
值: 77.95
名称: 准确率
来源:
网址: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=davidkim205/Rhea-72b-v0.5
名称: 开放大模型排行榜
- 任务:
类型: 文本生成
名称: 文本生成
数据集:
名称: TruthfulQA(0样本)
类型: truthful_qa
配置: 多项选择
分割: 验证集
参数:
少量样本数: 0
指标:
- 类型: 多选题得分
值: 74.5
来源:
网址: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=davidkim205/Rhea-72b-v0.5
名称: 开放大模型排行榜
- 任务:
类型: 文本生成
名称: 文本生成
数据集:
名称: Winogrande(5样本)
类型: winogrande
配置: winogrande_xl
分割: 验证集
参数:
少量样本数: 5
指标:
- 类型: 准确率
值: 87.85
名称: 准确率
来源:
网址: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=davidkim205/Rhea-72b-v0.5
名称: 开放大模型排行榜
- 任务:
类型: 文本生成
名称: 文本生成
数据集:
名称: GSM8k(5样本)
类型: gsm8k
配置: 主要
分割: 测试集
参数:
少量样本数: 5
指标:
- 类型: 准确率
值: 76.12
名称: 准确率
来源:
网址: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=davidkim205/Rhea-72b-v0.5
名称: 开放大模型排行榜
Rhea-72b-v0.5

Rhea项目是一个研究各种学习方法以提高大语言模型性能的项目。我们使用nox框架对现有模型进行了微调。我们基于当前开放的数据集构建了用于监督微调(SFT)学习的数据集,并使用SGD(用于DPO学习的自生成数据集创建方法)创建了用于DPO学习的数据集。
我们的模型在HuggingFace的开放大模型排行榜上排名第一。
SGD: 用于DPO学习的自生成数据集创建方法研究
该方法提出了一种为DPO(自监督学习)模型生成数据集的新方法。我们提出了一种技术,将模型生成的句子与现有数据集中的实际正确答案进行比较,并将模型生成结果与正确答案不匹配的句子添加进来。这使得模型能够自主创建训练数据,从而提升DPO模型的性能。
模型详情
监督微调数据集信息: datasets_enconv_4m
10万条随机混洗数据集
- stack-exchange-preferences
- SlimOrca
- alpaca-gpt4
- SHP
- HC3
- databricks-dolly-15k
- orca-dpo-pairs
- us-stockname
- OpenHermes2.5-dpo-binarized-alpha
- distilabel-math-preference-dpo
- Neural-DPO
- truthy-dpo-v0.1
- distilabel-capybara-dpo-7k-binarized
- us-sentiment
- contextual-dpo-v0.1
1千条随机混洗数据集
- bigbench
- glue_mnli
- glue_qqp
- xnli
- codexglue_code2text_go
- trivia_qa
- medmcqa
- hendrycks_ethics
- super_glue_record
- glue_qnli
- anli_r3
- swag
- squad_v2
- nq_open
- drop
- glue_sst2
- blimp
- paws-x
- unscramble
- anli_r2
- babi
- math_qa
- social_i_qa
- piqa
- arithmetic
- anli_r1
- prost
- sciq
- mc_taco
- medqa
- super_glue_boolq
- hendrycks_math
- lambada
- toxigen-data
- glue_cola
- pubmed_qa
- logiqa
- mutual
- headqa
- bbh
- super_glue_wic
- openbookqa
- glue_mrpc
- web_questions
- qasper
- super_glue_multirc
- story_cloze
- super_glue_rte
- glue_rte
- race
- xwinograd
- asdiv
- xstory_cloze
- crows_pairs_multilingual
- belebele
- glue_wnli
- super_glue_wsc
- coqa
- super_glue_copa
- super_glue_cb
- winograd_wsc
- mgsm
- scrolls_contract_nli
DPO数据集信息: datasets_encomp_151k
我们从训练数据集的每个类别中随机选择数据,使用模型生成句子中低于平均值的logits句子构建了DPO(直接偏好优化)数据集。
详细结果可查看此处
指标 |
值 |
平均得分 |
81.22 |
AI2推理挑战赛(25样本) |
79.78 |
HellaSwag(10样本) |
91.15 |
MMLU(5样本) |
77.95 |
TruthfulQA(0样本) |
74.50 |
Winogrande(5样本) |
87.85 |
GSM8k(5样本) |
76.12 |