许可证:llama3.1
库名称:transformers
基础模型:
- mlabonne/Hermes-3-Llama-3.1-70B-lorablated
数据集:
- jondurbin/gutenberg-dpo-v0.1
- nbeerbower/gutenberg2-dpo
模型索引:
- 名称:Llama3.1-Gutenberg-Doppel-70B
结果:
- 任务:
类型:文本生成
名称:文本生成
数据集:
名称:IFEval(0-Shot)
类型:HuggingFaceH4/ifeval
参数:
num_few_shot: 0
指标:
- 类型:inst_level_strict_acc 和 prompt_level_strict_acc
值:70.92
名称:严格准确率
来源:
url:https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard?query=nbeerbower/Llama3.1-Gutenberg-Doppel-70B
名称:Open LLM Leaderboard
- 任务:
类型:文本生成
名称:文本生成
数据集:
名称:BBH(3-Shot)
类型:BBH
参数:
num_few_shot: 3
指标:
- 类型:acc_norm
值:52.56
名称:归一化准确率
来源:
url:https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard?query=nbeerbower/Llama3.1-Gutenberg-Doppel-70B
名称:Open LLM Leaderboard
- 任务:
类型:文本生成
名称:文本生成
数据集:
名称:MATH Lvl 5(4-Shot)
类型:hendrycks/competition_math
参数:
num_few_shot: 4
指标:
- 类型:exact_match
值:13.75
名称:精确匹配
来源:
url:https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard?query=nbeerbower/Llama3.1-Gutenberg-Doppel-70B
名称:Open LLM Leaderboard
- 任务:
类型:文本生成
名称:文本生成
数据集:
名称:GPQA(0-shot)
类型:Idavidrein/gpqa
参数:
num_few_shot: 0
指标:
- 类型:acc_norm
值:12.64
名称:acc_norm
来源:
url:https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard?query=nbeerbower/Llama3.1-Gutenberg-Doppel-70B
名称:Open LLM Leaderboard
- 任务:
类型:文本生成
名称:文本生成
数据集:
名称:MuSR(0-shot)
类型:TAUR-Lab/MuSR
参数:
num_few_shot: 0
指标:
- 类型:acc_norm
值:22.68
名称:acc_norm
来源:
url:https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard?query=nbeerbower/Llama3.1-Gutenberg-Doppel-70B
名称:Open LLM Leaderboard
- 任务:
类型:文本生成
名称:文本生成
数据集:
名称:MMLU-PRO(5-shot)
类型:TIGER-Lab/MMLU-Pro
配置:main
分割:test
参数:
num_few_shot: 5
指标:
- 类型:acc
值:41.52
名称:准确率
来源:
url:https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard?query=nbeerbower/Llama3.1-Gutenberg-Doppel-70B
名称:Open LLM Leaderboard

Llama3.1-Gutenberg-Doppel-70B
mlabonne/Hermes-3-Llama-3.1-70B-lorablated 在 jondurbin/gutenberg-dpo-v0.1 和 nbeerbower/gutenberg2-dpo 上进行了微调。
方法
使用2块H100 GPU进行了3个epoch的ORPO调优。
感谢Schneewolf Labs提供的计算资源。
详细结果请见此处
指标 |
值 |
平均 |
35.68 |
IFEval(0-Shot) |
70.92 |
BBH(3-Shot) |
52.56 |
MATH Lvl 5(4-Shot) |
13.75 |
GPQA(0-shot) |
12.64 |
MuSR(0-shot) |
22.68 |
MMLU-PRO(5-shot) |
41.52 |