标签:
- 合并
许可证: 其他
模型索引:
- 名称: QuartetAnemoi-70B-t0.0001
结果:
- 任务:
类型: 文本生成
名称: 文本生成
数据集:
名称: AI2推理挑战赛(25样本)
类型: ai2_arc
配置: ARC挑战赛
分割: 测试集
参数:
少量样本数: 25
指标:
- 类型: 标准化准确率
值: 73.38
名称: 标准化准确率
来源:
网址: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=alchemonaut/QuartetAnemoi-70B-t0.0001
名称: 开放大模型排行榜
- 任务:
类型: 文本生成
名称: 文本生成
数据集:
名称: HellaSwag(10样本)
类型: hellaswag
分割: 验证集
参数:
少量样本数: 10
指标:
- 类型: 标准化准确率
值: 88.9
名称: 标准化准确率
来源:
网址: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=alchemonaut/QuartetAnemoi-70B-t0.0001
名称: 开放大模型排行榜
- 任务:
类型: 文本生成
名称: 文本生成
数据集:
名称: MMLU(5样本)
类型: cais/mmlu
配置: 全部
分割: 测试集
参数:
少量样本数: 5
指标:
- 类型: 准确率
值: 75.42
名称: 准确率
来源:
网址: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=alchemonaut/QuartetAnemoi-70B-t0.0001
名称: 开放大模型排行榜
- 任务:
类型: 文本生成
名称: 文本生成
数据集:
名称: TruthfulQA(0样本)
类型: truthful_qa
配置: 多项选择
分割: 验证集
参数:
少量样本数: 0
指标:
- 类型: mc2
值: 69.53
来源:
网址: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=alchemonaut/QuartetAnemoi-70B-t0.0001
名称: 开放大模型排行榜
- 任务:
类型: 文本生成
名称: 文本生成
数据集:
名称: Winogrande(5样本)
类型: winogrande
配置: winogrande_xl
分割: 验证集
参数:
少量样本数: 5
指标:
- 类型: 准确率
值: 85.32
名称: 准确率
来源:
网址: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=alchemonaut/QuartetAnemoi-70B-t0.0001
名称: 开放大模型排行榜
- 任务:
类型: 文本生成
名称: 文本生成
数据集:
名称: GSM8k(5样本)
类型: gsm8k
配置: 主要
分割: 测试集
参数:
少量样本数: 5
指标:
- 类型: 准确率
值: 68.61
名称: 准确率
来源:
网址: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=alchemonaut/QuartetAnemoi-70B-t0.0001
名称: 开放大模型排行榜
QuartetAnemoi-70B-t0.0001
使用自定义算法(NearSwap)对以下模型进行顺序合并:
在我们的测试中,正如预期的那样,这个模型表现得像一个故事讲述者,但这次合并带来的变化非常温和。我们印象深刻的是,与大多数模型不同,在故事的结尾,它并不经常使用诸如“最终”、“于是”、“希望的灯塔”等陈词滥调。
量化版本
得益于社区的努力,现在提供了大多数流行的量化格式。
类型 |
备注 |
作者 |
GGUF |
|
alchemonaut |
GGUF |
iMat |
Nexesenex |
GGUF |
iMat |
mradermacher |
GGUF |
完整集 |
mradermacher |
exl2 |
2.5bpw |
llmixer |
exl2 |
3.75bpw |
altomek |
exl2 |
4.0bpw |
llmixer |
exl2 |
4.6bpw |
alchemonaut |
exl2 |
6.0bpw |
llmixer |
AWQ |
|
tachyphylaxis |
NearSwap算法
NearSwap保留了基础模型(Miqu)的大部分权重,但当两个权重相似时,会将其插值到次要模型的值。参数t指定了相似性阈值。当两个值之间的距离小于t时,使用次要模型的权重。
此版本的模型使用t = 0.0001。在此t值下,每次传递中约有0.8%的权重完全切换到次要模型。当t超过0.0025时,模型质量迅速下降:
- t = 0.0001(约0.8%完全切换):此模型
- t = 0.0003(约2%完全切换)
- t = 0.001(约10%完全切换):BoreanGale-70B
- t = 0.0025(约18%完全切换):生成一个段落尚可,但之后会退化为垃圾内容
- t = 0.005(约35%完全切换):垃圾内容;半相关的单词列表
- t = 0.01(约55%完全切换):垃圾内容;伪随机令牌输出
对于QuartetAnemoi-70B-t0.0001,三个次要模型分别以t = 0.0001的顺序合并。
NearSwap实现:
t: Union[float, np.ndarray],
v0: Union[np.ndarray, torch.Tensor],
v1: Union[np.ndarray, torch.Tensor],
...
lweight = numpy.absolute(v0-v1)
lweight = t / lweight
lweight = numpy.nan_to_num(lweight, nan=1.0, posinf=1.0, neginf=1.0)
numpy.clip(lweight, a_min=0.0, a_max=1.0, out=lweight)
res = lerp(lweight,v0,v1)
许可证和使用
由于目前Miqu的最终来源尚不明确,仅限于推测,因此此模型仅供非商业研究使用。
详细结果可在此处查看此处
指标 |
值 |
平均 |
76.86 |
AI2推理挑战赛(25样本) |
73.38 |
HellaSwag(10样本) |
88.9 |
MMLU(5样本) |
75.42 |
TruthfulQA(0样本) |
69.53 |
Winogrande(5样本) |
85.32 |
GSM8k(5样本) |
68.61 |