模型简介
模型特点
模型能力
使用案例
许可证:afl-3.0
库名称:transformers
标签:
- UNA
- juanako
数据集: - jondurbin/py-dpo-v0.1
- Replete-AI/code_bagel_hermes-2.5
- mlabonne/orpo-dpo-mix-40k
模型索引:
- 名称:UNA-ThePitbull-21.4B-v2
结果:-
任务:
类型:文本生成
名称:文本生成
数据集:
名称:AI2推理挑战(25样本)
类型:ai2_arc
配置:ARC-Challenge
拆分:测试
参数:
样本数:25
指标:- 类型:标准化准确率
值:77.73
名称:标准化准确率
来源:
URL:https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=fblgit/UNA-ThePitbull-21.4B-v2
名称:开放LLM排行榜
- 类型:标准化准确率
-
任务:
类型:文本生成
名称:文本生成
数据集:
名称:HellaSwag(10样本)
类型:hellaswag
拆分:验证
参数:
样本数:10
指标:- 类型:标准化准确率
值:91.79
名称:标准化准确率
来源:
URL:https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=fblgit/UNA-ThePitbull-21.4B-v2
名称:开放LLM排行榜
- 类型:标准化准确率
-
任务:
类型:文本生成
名称:文本生成
数据集:
名称:MMLU(5样本)
类型:cais/mmlu
配置:全部
拆分:测试
参数:
样本数:5
指标:- 类型:准确率
值:68.25
名称:准确率
来源:
URL:https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=fblgit/UNA-ThePitbull-21.4B-v2
名称:开放LLM排行榜
- 类型:准确率
-
任务:
类型:文本生成
名称:文本生成
数据集:
名称:TruthfulQA(0样本)
类型:truthful_qa
配置:多项选择
拆分:验证
参数:
样本数:0
指标:- 类型:mc2
值:78.24
来源:
URL:https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=fblgit/UNA-ThePitbull-21.4B-v2
名称:开放LLM排行榜
- 类型:mc2
-
任务:
类型:文本生成
名称:文本生成
数据集:
名称:Winogrande(5样本)
类型:winogrande
配置:winogrande_xl
拆分:验证
参数:
样本数:5
指标:- 类型:准确率
值:87.37
名称:准确率
来源:
URL:https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=fblgit/UNA-ThePitbull-21.4B-v2
名称:开放LLM排行榜
- 类型:准确率
-
任务:
类型:文本生成
名称:文本生成
数据集:
名称:GSM8k(5样本)
类型:gsm8k
配置:主要
拆分:测试
参数:
样本数:5
指标:- 类型:准确率
值:63.53
名称:准确率
来源:
URL:https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=fblgit/UNA-ThePitbull-21.4B-v2
名称:开放LLM排行榜
- 类型:准确率
-
任务:
类型:文本生成
名称:文本生成
数据集:
名称:IFEval(0样本)
类型:HuggingFaceH4/ifeval
参数:
样本数:0
指标:- 类型:指令级严格准确率和提示级严格准确率
值:37.9
名称:严格准确率
来源:
URL:https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard?query=fblgit/UNA-ThePitbull-21.4B-v2
名称:开放LLM排行榜
- 类型:指令级严格准确率和提示级严格准确率
-
任务:
类型:文本生成
名称:文本生成
数据集:
名称:BBH(3样本)
类型:BBH
参数:
样本数:3
指标:- 类型:标准化准确率
值:46.79
名称:标准化准确率
来源:
URL:https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard?query=fblgit/UNA-ThePitbull-21.4B-v2
名称:开放LLM排行榜
- 类型:标准化准确率
-
任务:
类型:文本生成
名称:文本生成
数据集:
名称:MATH Lvl 5(4样本)
类型:hendrycks/competition_math
参数:
样本数:4
指标:- 类型:精确匹配
值:9.59
名称:精确匹配
来源:
URL:https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard?query=fblgit/UNA-ThePitbull-21.4B-v2
名称:开放LLM排行榜
- 类型:精确匹配
-
任务:
类型:文本生成
名称:文本生成
数据集:
名称:GPQA(0样本)
类型:Idavidrein/gpqa
参数:
样本数:0
指标:- 类型:标准化准确率
值:6.94
名称:标准化准确率
来源:
URL:https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard?query=fblgit/UNA-ThePitbull-21.4B-v2
名称:开放LLM排行榜
- 类型:标准化准确率
-
任务:
类型:文本生成
名称:文本生成
数据集:
名称:MuSR(0样本)
类型:TAUR-Lab/MuSR
参数:
样本数:0
指标:- 类型:标准化准确率
值:6.42
名称:标准化准确率
来源:
URL:https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard?query=fblgit/UNA-ThePitbull-21.4B-v2
名称:开放LLM排行榜
- 类型:标准化准确率
-
任务:
类型:文本生成
名称:文本生成
数据集:
名称:MMLU-PRO(5样本)
类型:TIGER-Lab/MMLU-Pro
配置:主要
拆分:测试
参数:
样本数:5
指标:- 类型:准确率
值:27.95
名称:准确率
来源:
URL:https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard?query=fblgit/UNA-ThePitbull-21.4B-v2
名称:开放LLM排行榜
- 类型:准确率
-
UNA-ThePitbull 21.4B v2
介绍业界最佳的大型语言模型(LLM)。性能接近70B模型,但仅基于21.4B参数的saltlux/luxia-21.4b-alignment-v1.0。
此模型未被刻意优化以获得高分而实际无用。我们发布它是因为它真正融合了情商(EQ)与智商(IQ),是一款极其强大、智能且擅长对话的模型。
量化版本可在bartowski/UNA-ThePitbull-21.4B-v2-GGUF获取。
V1与V2的区别
在V2中,我们采用了不同的UNA策略,并部分覆盖了MLP和注意力层。
我们还对V1进行了进一步的监督微调(SFT)和直接偏好优化(DPO),并将很快发布部分相关成果。
变更
- 对V1进行SFT,使用
Replete-AI/code_bagel_hermes-2.5
数据集,学习率从1.0e-4降至5.0e-5,训练1个周期。 - 进行DPO,学习率从1.0e-4降至5.0e-5,训练1个周期:
- 使用
mlabonne/orpo-dpo-mix-40k
数据集 - 使用
jondurbin/py-dpo-v0.1
数据集
- 使用
评估
开放LLM排行榜评估结果
详细结果请见此处
指标 | 值 |
---|---|
平均得分 | 77.82 |
AI2推理挑战(25样本) | 77.73 |
HellaSwag(10样本) | 91.79 |
MMLU(5样本) | 68.25 |
TruthfulQA(0样本) | 78.24 |
Winogrande(5样本) | 87.37 |
GSM8k(5样本) | 63.53 |
仅可与其非UNA基础模型比较:原始luxia-21.4b和ThePitbull-v1。
UNA v2(VLLM)评估:
vllm(预训练=/data/tools/mergekit/una-thepitbull-v5,数据类型=bfloat16,GPU内存利用率=0.8,最大模型长度=2048,数据并行规模=2,张量并行规模=4),生成参数:(无),限制:无,样本数:无,批量大小:8
| 任务 |版本| 过滤 |样本数| 指标 |值 | |标准差|
|--------------|----|---------------|-----|-----------|-----|---|-----|
|gsm8k |3 |严格匹配 |5 |精确匹配 |0.7695|± |0.0116|+
| | |灵活提取 |5 |精确匹配 |0.7695|± |0.0116|+
|hellaswag |1 |无 |10 |准确率 |0.8110|± |0.0039|
| | |无 |10 |标准化准确率|0.9169|± |0.0028|+
|winogrande |1 |无 |5 |准确率 |0.8777|± |0.0092|+
|mmlu |N/A |无 |0 |准确率 |0.6427|± |0.0038|-
|arc_challenge |1 |无 |25 |准确率 |0.7713|± |0.0123|
| | |无 |25 |标准化准确率|0.7875|± |0.0120|+
|truthfulqa_mc2|2 |无 |0 |准确率 |0.7824|± |0.0135|-
|mathqa |1 |无 |0 |准确率 |0.4037|± |0.009 |
| | |无 |0 |标准化准确率|0.4034|± |0.009 |+
|pubmedqa |1 |无 |0 |准确率 |0.7260|± |0.020 |+
|boolq |2 |无 |0 |准确率 |0.8602|± |0.0061|+
UNA v1(VLLM)评估
| 任务 |版本| 过滤 |样本数| 指标 |值 | |标准差|
|--------------|----|---------------|-----|-----------|-----|---|-----|
|gsm8k |3 |严格匹配 |5 |精确匹配 |0.7566|± |0.0118|
| | |灵活提取 |5 |精确匹配 |0.7582|± |0.0118|
|hellaswag |1 |无 |10 |准确率 |0.8168|± |0.0039|
| | |无 |10 |标准化准确率|0.9188|± |0.0027|
|winogrande |1 |无 |5 |准确率 |0.8635|± |0.0097|
|mmlu |N/A |无 |0 |准确率 |0.6444|± |0.0038|
|arc_challenge |1 |无 |25 |准确率 |0.7747|± |0.0122|
| | |无 |25 |标准化准确率|0.7850|± |0.0120|
|truthfulqa_mc2|2 |无 |0 |准确率 |0.7902|± |0.0134|
|mathqa |1 |无 |0 |准确率 |0.4030|± |0.009 |
| | |无 |0 |标准化准确率|0.4034|± |0.009 |
|pubmedqa |1 |无 |0 |准确率 |0.6860|± |0.0208|
|boolq |2 |无 |0 |准确率 |0.8401|± |0.0064|
原始模型(VLLM)评估
| 任务 |版本| 过滤 |样本数| 指标 |值 | |标准差|
|--------------|----|---------------|-----|-----------|-----|---|-----|
|gsm8k |3 |严格匹配 |5 |精确匹配 |0.7528|± |0.0119|
| | |灵活提取 |5 |精确匹配 |0.7521|± |0.0119|
|hellaswag |1 |无 |10 |准确率 |0.8117|± |0.0039|
| | |无 |10 |标准化准确率|0.9167|± |0.0028|
|winogrande |1 |无 |5 |准确率 |0.8682|± |0.0095|
|mmlu |N/A |无 |0 |准确率 |0.6448|± |0.0038|
|arc_challenge |1 |无 |25 |准确率 |0.7688|± |0.0123|
| | |无 |25 |标准化准确率|0.7730|± |0.0122|
|truthfulqa_mc2|2 |无 |0 |准确率 |0.7895|± |0.0133|
|mathqa |1 |无 |0 |准确率 |0.4000|± |0.009 |
| | |无 |0 |标准化准确率|0.4003|± |0.009 |
|pubmedqa |1 |无 |0 |准确率 |0.6680|± |0.0211|
|boolq |2 |无 |0 |准确率 |0.8346|± |0.0065|
引用
- mlabonne
- jondurbin & Replete-AI
- bartowski
- saltlux
如果使用UNA模型,请务必引用:
@misc{unathepitbull21b,
title={ThePitbull: Uniform Neural Alignment},
author={Xavier Murias},
year={2024},
publisher = {Juanako.AI},
journal = {HuggingFace repository},
howpublished = {\url{https://huggingface.co/fblgit/UNA-ThePitbull-21.4-v1}},
}
开放LLM排行榜评估结果
详细结果请见此处
指标 | 值 |
---|---|
平均得分 | 22.60 |
IFEval(0样本) | 37.90 |
BBH(3样本) | 46.79 |
MATH Lvl 5(4样本) | 9.59 |
GPQA(0样本) | 6.94 |
MuSR(0样本) | 6.42 |
MMLU-PRO(5样本) | 27.95 |


