语言:
- 英文
许可证: apache-2.0
库名称: transformers
标签:
- 合并
- mergekit
- lazymergekit
- model_stock
- ZeroXClem-Llama-3.1-8B-AthenaSky-MegaMix
基础模型:
- Pedro13543/mega_blend_model
- Skywork/Skywork-o1-Open-Llama-3.1-8B
- Undi95/Meta-Llama-3.1-8B-Claude
- mergekit-community/good_mix_model_Stock
- mergekit-community/L3.1-Athena-d-8B
管道标签: 文本生成
模型索引:
- 名称: Llama-3.1-8B-AthenaSky-MegaMix
结果:
- 任务:
类型: 文本生成
名称: 文本生成
数据集:
名称: IFEval (0-Shot)
类型: HuggingFaceH4/ifeval
参数:
num_few_shot: 0
指标:
- 类型: inst_level_strict_acc 和 prompt_level_strict_acc
值: 63.01
名称: 严格准确率
来源:
url: https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard?query=ZeroXClem/Llama-3.1-8B-AthenaSky-MegaMix
名称: Open LLM 排行榜
- 任务:
类型: 文本生成
名称: 文本生成
数据集:
名称: BBH (3-Shot)
类型: BBH
参数:
num_few_shot: 3
指标:
- 类型: acc_norm
值: 31.39
名称: 归一化准确率
来源:
url: https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard?query=ZeroXClem/Llama-3.1-8B-AthenaSky-MegaMix
名称: Open LLM 排行榜
- 任务:
类型: 文本生成
名称: 文本生成
数据集:
名称: MATH Lvl 5 (4-Shot)
类型: hendrycks/competition_math
参数:
num_few_shot: 4
指标:
- 类型: exact_match
值: 27.95
名称: 精确匹配
来源:
url: https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard?query=ZeroXClem/Llama-3.1-8B-AthenaSky-MegaMix
名称: Open LLM 排行榜
- 任务:
类型: 文本生成
名称: 文本生成
数据集:
名称: GPQA (0-shot)
类型: Idavidrein/gpqa
参数:
num_few_shot: 0
指标:
- 类型: acc_norm
值: 3.69
名称: acc_norm
来源:
url: https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard?query=ZeroXClem/Llama-3.1-8B-AthenaSky-MegaMix
名称: Open LLM 排行榜
- 任务:
类型: 文本生成
名称: 文本生成
数据集:
名称: MuSR (0-shot)
类型: TAUR-Lab/MuSR
参数:
num_few_shot: 0
指标:
- 类型: acc_norm
值: 6.9
名称: acc_norm
来源:
url: https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard?query=ZeroXClem/Llama-3.1-8B-AthenaSky-MegaMix
名称: Open LLM 排行榜
- 任务:
类型: 文本生成
名称: 文本生成
数据集:
名称: MMLU-PRO (5-shot)
类型: TIGER-Lab/MMLU-Pro
配置: main
分割: test
参数:
num_few_shot: 5
指标:
- 类型: acc
值: 27.82
名称: 准确率
来源:
url: https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard?query=ZeroXClem/Llama-3.1-8B-AthenaSky-MegaMix
名称: Open LLM 排行榜
ZeroXClem-Llama-3.1-8B-AthenaSky-MegaMix
概述
ZeroXClem-Llama-3.1-8B-AthenaSky-MegaMix 是一款通过 model stock 合并 使用 MergeKit 构建的强大 AI 模型。它汇集了 Hugging Face 上一些最佳模型,确保在广泛的 NLP 任务中表现强劲,包括推理、编码、角色扮演和指令遵循。

该模型通过合并高质量的基础和微调模型创建,形成优化的 混合架构,保留了每个贡献模型的优势。
合并详情
合并的模型
以下模型参与了本次融合:
配置
名称: ZeroXClem-Llama-3.1-8B-AthenaSky-MegaMix
基础模型: mergekit-community/L3.1-Athena-d-8B
数据类型: bfloat16
合并方法: model_stock
模型:
- 模型: Pedro13543/mega_blend_model
- 模型: Skywork/Skywork-o1-Open-Llama-3.1-8B
- 模型: Undi95/Meta-Llama-3.1-8B-Claude
- 模型: mergekit-community/good_mix_model_Stock
分词器来源: mergekit-community/L3.1-Athena-d-8B
特性与改进
🔹 高级推理与深思熟虑 - 得益于 Skywork-o1
的集成,该模型在逻辑思维和问题解决方面表现出色。
🔹 增强的对话深度 - 包含 Meta-Llama-3.1-8B-Claude
提升了响应结构,使对话更具吸引力。
🔹 多功能角色扮演与创意 - 利用 mega_blend_model
和 good_mix_model_Stock
,模型支持沉浸式角色扮演和故事创作。
🔹 强大的指令遵循 - 基于多种指令数据集训练,提供清晰、信息丰富且有用的响应。
使用场景
- 聊天与角色扮演 - 支持自然、动态的对话流程。
- 编程与代码生成 - 提供可靠的代码补全和调试建议。
- 创意写作 - 生成引人入胜的故事、角色对话和沉浸式文本。
- 教育辅助 - 帮助解释复杂主题并回答学术问题。
- 逻辑与问题解决 - 处理基于推理和结构化思维过程。
🛠 使用方法
🔥 Ollama (快速推理)
您可以使用 Ollama 直接测试模型:
ollama run hf.co/ZeroXClem/Llama-3.1-8B-AthenaSky-MegaMix
🤗 Hugging Face Transformers (Python)
from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline
import torch
模型名称 = "ZeroXClem/Llama-3.1-8B-AthenaSky-MegaMix"
分词器 = AutoTokenizer.from_pretrained(模型名称)
模型 = AutoModelForCausalLM.from_pretrained(
模型名称,
torch_dtype=torch.bfloat16,
device_map="auto"
)
文本生成器 = pipeline(
"text-generation",
model=模型,
tokenizer=分词器,
torch_dtype=torch.bfloat16,
device_map="auto"
)
提示 = "描述现代技术中人工智能伦理的重要性。"
输出 = 文本生成器(
提示,
max_new_tokens=200,
do_sample=True,
temperature=0.7,
top_k=50,
top_p=0.95
)
print(输出[0]["generated_text"])
模型对齐与伦理
⚠️ 无审查使用: 该模型未应用严格的内容审核。用户在部署前应实施适当的 安全过滤器。
⚠️ 责任声明: 您需对模型生成的输出负责。建议在集成该模型到应用时应用 伦理保障 和 内容审核。
📜 许可证: 遵循 Meta Llama 3.1 社区许可协议。
反馈与贡献
欢迎反馈、错误报告和性能评估!如果您发现改进或希望贡献,请随时联系我们或提交建议。
ZeroXClem 团队 | 2025 
详细结果请见此处
指标 |
值 |
平均 |
26.79 |
IFEval (0-Shot) |
63.01 |
BBH (3-Shot) |
31.39 |
MATH Lvl 5 (4-Shot) |
27.95 |
GPQA (0-shot) |
3.69 |
MuSR (0-shot) |
6.90 |
MMLU-PRO (5-shot) |
27.82 |