语言:
- 英文
许可证: apache-2.0
库名称: transformers
标签:
- 聊天
流水线标签: 文本生成
模型索引:
- 名称: magnum-v4-12b
结果:
- 任务:
类型: 文本生成
名称: 文本生成
数据集:
名称: IFEval (0-Shot)
类型: HuggingFaceH4/ifeval
参数:
num_few_shot: 0
指标:
- 类型: inst_level_strict_acc 和 prompt_level_strict_acc
值: 33.93
名称: 严格准确率
来源:
url: >-
https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard?query=anthracite-org/magnum-v4-12b
名称: Open LLM 排行榜
- 任务:
类型: 文本生成
名称: 文本生成
数据集:
名称: BBH (3-Shot)
类型: BBH
参数:
num_few_shot: 3
指标:
- 类型: acc_norm
值: 30.5
名称: 标准化准确率
来源:
url: >-
https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard?query=anthracite-org/magnum-v4-12b
名称: Open LLM 排行榜
- 任务:
类型: 文本生成
名称: 文本生成
数据集:
名称: MATH Lvl 5 (4-Shot)
类型: hendrycks/competition_math
参数:
num_few_shot: 4
指标:
- 类型: exact_match
值: 9.82
名称: 精确匹配
来源:
url: >-
https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard?query=anthracite-org/magnum-v4-12b
名称: Open LLM 排行榜
- 任务:
类型: 文本生成
名称: 文本生成
数据集:
名称: GPQA (0-shot)
类型: Idavidrein/gpqa
参数:
num_few_shot: 0
指标:
- 类型: acc_norm
值: 6.15
名称: acc_norm
来源:
url: >-
https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard?query=anthracite-org/magnum-v4-12b
名称: Open LLM 排行榜
- 任务:
类型: 文本生成
名称: 文本生成
数据集:
名称: MuSR (0-shot)
类型: TAUR-Lab/MuSR
参数:
num_few_shot: 0
指标:
- 类型: acc_norm
值: 10.36
名称: acc_norm
来源:
url: >-
https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard?query=anthracite-org/magnum-v4-12b
名称: Open LLM 排行榜
- 任务:
类型: 文本生成
名称: 文本生成
数据集:
名称: MMLU-PRO (5-shot)
类型: TIGER-Lab/MMLU-Pro
配置: main
分割: test
参数:
num_few_shot: 5
指标:
- 类型: acc
值: 28.93
名称: 准确率
来源:
url: >-
https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard?query=anthracite-org/magnum-v4-12b
名称: Open LLM 排行榜
数据集:
- anthracite-org/c2_logs_32k_llama3_qwen2_v1.2_no_system
- anthracite-org/kalo-opus-instruct-22k-no-refusal-no-system
- anthracite-org/kalo-opus-instruct-3k-filtered-no-system
- anthracite-org/nopm_claude_writing_fixed
- anthracite-org/kalo_opus_misc_240827_no_system
- anthracite-org/kalo_misc_part2_no_system

这是一个旨在复现Claude 3模型(特别是Sonnet和Opus)散文质量的系列模型。