模型索引:
- 名称: orthogonal-2x7B-v2-base
结果:
- 任务:
类型: 文本生成
名称: 文本生成
数据集:
名称: AI2推理挑战赛(25样本)
类型: ai2_arc
配置: ARC挑战赛
拆分: 测试集
参数:
少量样本数: 25
指标:
- 类型: 标准化准确率
值: 66.89
名称: 标准化准确率
来源:
网址: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=LoSboccacc/orthogonal-2x7B-v2-base
名称: 开放大语言模型排行榜
- 任务:
类型: 文本生成
名称: 文本生成
数据集:
名称: HellaSwag(10样本)
类型: hellaswag
拆分: 验证集
参数:
少量样本数: 10
指标:
- 类型: 标准化准确率
值: 85.69
名称: 标准化准确率
来源:
网址: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=LoSboccacc/orthogonal-2x7B-v2-base
名称: 开放大语言模型排行榜
- 任务:
类型: 文本生成
名称: 文本生成
数据集:
名称: MMLU(5样本)
类型: cais/mmlu
配置: 全部
拆分: 测试集
参数:
少量样本数: 5
指标:
- 类型: 准确率
值: 62.65
名称: 准确率
来源:
网址: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=LoSboccacc/orthogonal-2x7B-v2-base
名称: 开放大语言模型排行榜
- 任务:
类型: 文本生成
名称: 文本生成
数据集:
名称: TruthfulQA(0样本)
类型: truthful_qa
配置: 多项选择
拆分: 验证集
参数:
少量样本数: 0
指标:
- 类型: mc2
值: 66.8
来源:
网址: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=LoSboccacc/orthogonal-2x7B-v2-base
名称: 开放大语言模型排行榜
- 任务:
类型: 文本生成
名称: 文本生成
数据集:
名称: Winogrande(5样本)
类型: winogrande
配置: winogrande_xl
拆分: 验证集
参数:
少量样本数: 5
指标:
- 类型: 准确率
值: 77.35
名称: 准确率
来源:
网址: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=LoSboccacc/orthogonal-2x7B-v2-base
名称: 开放大语言模型排行榜
- 任务:
类型: 文本生成
名称: 文本生成
数据集:
名称: GSM8k(5样本)
类型: gsm8k
配置: 主要
拆分: 测试集
参数:
少量样本数: 5
指标:
- 类型: 准确率
值: 51.4
名称: 准确率
来源:
网址: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=LoSboccacc/orthogonal-2x7B-v2-base
名称: 开放大语言模型排行榜
基础模型: mistralai/Mistral-7B-Instruct-v0.2
门控模式: hidden # 可选"hidden"、"cheap_embed"或"random"
数据类型: bfloat16 # 输出数据类型(float32、float16或bfloat16)
专家模型:
- 源模型: SanjiWatsuki/Kunoichi-DPO-v2-7B
正向提示词:
- "角色扮演"
- 源模型: mistralai/Mistral-7B-Instruct-v0.2
正向提示词:
- "聊天"
chatml
详细结果可查看此处
指标 |
值 |
平均得分 |
68.47 |
AI2推理挑战赛(25样本) |
66.89 |
HellaSwag(10样本) |
85.69 |
MMLU(5样本) |
62.65 |
TruthfulQA(0样本) |
66.80 |
Winogrande(5样本) |
77.35 |
GSM8k(5样本) |
51.40 |