语言:
- 英文
许可证: cc-by-nc-4.0
库名称: transformers
标签:
- 奖励模型
- RLHF
- RLAIF
数据集:
- berkeley-nest/Nectar
模型索引:
- 名称: Starling-LM-11B-alpha
结果:
- 任务:
类型: 文本生成
名称: 文本生成
数据集:
名称: AI2推理挑战赛(25样本)
类型: ai2_arc
配置: ARC挑战赛
分割: 测试集
参数:
少量样本数: 25
指标:
- 类型: 标准化准确率
值: 61.26
名称: 标准化准确率
来源:
网址: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=CallComply/Starling-LM-11B-alpha
名称: 开放大模型排行榜
- 任务:
类型: 文本生成
名称: 文本生成
数据集:
名称: HellaSwag(10样本)
类型: hellaswag
分割: 验证集
参数:
少量样本数: 10
指标:
- 类型: 标准化准确率
值: 81.99
名称: 标准化准确率
来源:
网址: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=CallComply/Starling-LM-11B-alpha
名称: 开放大模型排行榜
- 任务:
类型: 文本生成
名称: 文本生成
数据集:
名称: MMLU(5样本)
类型: cais/mmlu
配置: 全部
分割: 测试集
参数:
少量样本数: 5
指标:
- 类型: 准确率
值: 61.5
名称: 准确率
来源:
网址: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=CallComply/Starling-LM-11B-alpha
名称: 开放大模型排行榜
- 任务:
类型: 文本生成
名称: 文本生成
数据集:
名称: TruthfulQA(0样本)
类型: truthful_qa
配置: 多选
分割: 验证集
参数:
少量样本数: 0
指标:
- 类型: mc2
值: 41.53
来源:
网址: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=CallComply/Starling-LM-11B-alpha
名称: 开放大模型排行榜
- 任务:
类型: 文本生成
名称: 文本生成
数据集:
名称: Winogrande(5样本)
类型: winogrande
配置: winogrande_xl
分割: 验证集
参数:
少量样本数: 5
指标:
- 类型: 准确率
值: 78.06
名称: 准确率
来源:
网址: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=CallComply/Starling-LM-11B-alpha
名称: 开放大模型排行榜
- 任务:
类型: 文本生成
名称: 文本生成
数据集:
名称: GSM8k(5样本)
类型: gsm8k
配置: 主要
分割: 测试集
参数:
少量样本数: 5
指标:
- 类型: 准确率
值: 35.18
名称: 准确率
来源:
网址: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=CallComply/Starling-LM-11B-alpha
名称: 开放大模型排行榜
Starling-LM-7B-alpha
- 开发者: Banghua Zhu * , Evan Frick * , Tianhao Wu * , Hanlin Zhu 和 Jiantao Jiao.
- 模型类型: 通过RLHF/RLAIF微调的语言模型
- 许可证: 非商业许可证
- 微调基础模型: Openchat 3.5(基于Mistral-7B-v0.1)
我们推出了Starling-7B,这是一个通过AI反馈强化学习(RLAIF)训练的开源大语言模型(LLM)。该模型利用了我们新的GPT-4标注的排名数据集berkeley-nest/Nectar以及我们新的奖励训练和策略调优流程。Starling-7B-alpha在MT Bench中以GPT-4作为评委获得了8.09分,超越了除OpenAI的GPT-4和GPT-4 Turbo之外的所有现有模型。我们在HuggingFace上发布了排名数据集Nectar、奖励模型Starling-RM-7B-alpha和语言模型Starling-LM-7B-alpha,并在LMSYS Chatbot Arena上提供了在线演示。请关注我们即将发布的代码和论文,其中将提供整个过程的更多细节。
Starling-LM-7B-alpha是从Openchat 3.5训练而来的语言模型,使用了奖励模型berkeley-nest/Starling-RM-7B-alpha和策略优化方法优势诱导策略对齐(APA)。评估结果如下。
模型 |
调优方法 |
MT Bench |
AlpacaEval |
MMLU |
GPT-4-Turbo |
? |
9.32 |
97.70 |
|
GPT-4 |
SFT + PPO |
8.99 |
95.28 |
86.4 |
Starling-7B |
C-RLFT + APA |
8.09 |
91.99 |
63.9 |
Claude-2 |
? |
8.06 |
91.36 |
78.5 |
GPT-3.5-Turbo |
? |
7.94 |
89.37 |
70 |
Claude-1 |
? |
7.9 |
88.39 |
77 |
Tulu-2-dpo-70b |
SFT + DPO |
7.89 |
95.1 |
|
Openchat-3.5 |
C-RLFT |
7.81 |
88.51 |
64.3 |
Zephyr-7B-beta |
SFT + DPO |
7.34 |
90.60 |
61.4 |
Llama-2-70b-chat-hf |
SFT + PPO |
6.86 |
92.66 |
63 |
Neural-chat-7b-v3-1 |
SFT + DPO |
6.84 |
84.53 |
62.4 |
Tulu-2-dpo-7b |
SFT + DPO |
6.29 |
85.1 |
|