语言:
- 英文
- 中文
许可证: 其他
标签:
- 聊天
基础模型: Qwen/Qwen2-72B-Instruct
许可证名称: 通义千问
许可证链接: https://huggingface.co/Qwen/Qwen2-72B-Instruct/blob/main/LICENSE
任务标签: 文本生成
模型索引:
- 名称: magnum-72b-v1
结果:
- 任务:
类型: 文本生成
名称: 文本生成
数据集:
名称: IFEval (零样本)
类型: HuggingFaceH4/ifeval
参数:
num_few_shot: 0
指标:
- 类型: 实例级严格准确率和提示级严格准确率
值: 76.06
名称: 严格准确率
- 类型: 实例级严格准确率和提示级严格准确率
值: 76.06
名称: 严格准确率
来源:
url: https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard?query=alpindale/magnum-72b-v1
名称: Open LLM 排行榜
- 任务:
类型: 文本生成
名称: 文本生成
数据集:
名称: BBH (三样本)
类型: BBH
参数:
num_few_shot: 3
指标:
- 类型: 归一化准确率
值: 57.65
名称: 归一化准确率
- 类型: 归一化准确率
值: 57.65
名称: 归一化准确率
来源:
url: https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard?query=alpindale/magnum-72b-v1
名称: Open LLM 排行榜
- 任务:
类型: 文本生成
名称: 文本生成
数据集:
名称: MATH 五级 (四样本)
类型: hendrycks/competition_math
参数:
num_few_shot: 4
指标:
- 类型: 精确匹配
值: 35.27
名称: 精确匹配
- 类型: 精确匹配
值: 35.27
名称: 精确匹配
来源:
url: https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard?query=alpindale/magnum-72b-v1
名称: Open LLM 排行榜
- 任务:
类型: 文本生成
名称: 文本生成
数据集:
名称: GPQA (零样本)
类型: Idavidrein/gpqa
参数:
num_few_shot: 0
指标:
- 类型: 归一化准确率
值: 18.79
名称: 归一化准确率
- 类型: 归一化准确率
值: 18.79
名称: 归一化准确率
来源:
url: https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard?query=alpindale/magnum-72b-v1
名称: Open LLM 排行榜
- 任务:
类型: 文本生成
名称: 文本生成
数据集:
名称: MuSR (零样本)
类型: TAUR-Lab/MuSR
参数:
num_few_shot: 0
指标:
- 类型: 归一化准确率
值: 15.62
名称: 归一化准确率
- 类型: 归一化准确率
值: 15.62
名称: 归一化准确率
来源:
url: https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard?query=alpindale/magnum-72b-v1
名称: Open LLM 排行榜
- 任务:
类型: 文本生成
名称: 文本生成
数据集:
名称: MMLU-PRO (五样本)
类型: TIGER-Lab/MMLU-Pro
配置: main
拆分: test
参数:
num_few_shot: 5
指标:
- 类型: 准确率
值: 49.64
名称: 准确率
- 类型: 准确率
值: 49.85
名称: 准确率
来源:
url: https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard?query=alpindale/magnum-72b-v1
名称: Open LLM 排行榜

这是旨在复现Claude 3模型(特别是Sonnet和Opus)散文质量的一系列模型中的第一个。该模型基于Qwen-2 72B Instruct进行微调。
提示方式
模型已通过ChatML格式进行指令调优。典型输入如下所示:
"""<|im_start|>user
你好!<|im_end|>
<|im_start|>assistant
很高兴见到你!<|im_end|>
<|im_start|>user
我能问个问题吗?<|im_end|>
<|im_start|>assistant
"""
致谢
这个模型是团队合作的成果,功劳归于Anthracite的所有成员。
我们还要感谢Kearm赞助了训练该模型所需的计算资源。
训练
训练使用了5500万高质量角色扮演数据标记,进行了1.5个epoch的训练。我们使用了8块AMD Instinct™ MI300X加速器对模型进行全参数微调。

安全性
...
详细结果请见此处
指标 |
值 |
平均分 |
42.17 |
IFEval (零样本) |
76.06 |
BBH (三样本) |
57.65 |
MATH 五级 (四样本) |
35.27 |
GPQA (零样本) |
18.79 |
MuSR (零样本) |
15.62 |
MMLU-PRO (五样本) |
49.64 |
详细结果请见此处
指标 |
值 |
平均分 |
42.21 |
IFEval (零样本) |
76.06 |
BBH (三样本) |
57.65 |
MATH 五级 (四样本) |
35.27 |
GPQA (零样本) |
18.79 |
MuSR (零样本) |
15.62 |
MMLU-PRO (五样本) |
49.85 |