🚀 Arcana Qwen3 2.4B A0.6B
这是一个基于专家混合(MoE)的Qwen3模型,总参数数量为24亿,4个专家模型每个各有6亿参数。所有专家模型如下所示。该模型旨在以更高的效率和更低的内存使用提供更准确的结果!

"我们都在某方面是专家,但在其他方面也都是初学者。"
— 《模仿游戏》(2014)
模型信息
属性 |
详情 |
基础模型 |
Qwen/Qwen3 - 0.6B |
任务类型 |
文本生成 |
库名称 |
transformers |
标签 |
moe、qwen3、代码、数学、推理、医学、指令、if |
数据集 |
nvidia/OpenCodeReasoning、unsloth/OpenMathReasoning - mini、patrickfleith/instruction - freak - reasoning、FreedomIntelligence/medical - o1 - reasoning - SFT、Malikeh1375/medical - question - answering - datasets、Myashka/SO - Python_QA - filtered - 2023 - no_code - tanh_score、ArdentTJ/t1_daily_conversations |
✨ 主要特性
这是一个MoE(专家混合)Qwen3模型,总共有24亿个参数,4个专家模型每个各有6亿参数。该模型旨在以更高的效率和更低的内存使用提供更准确的结果!
🔧 技术细节
专家模型:
关键训练参数(SFTConfig)
per_device_train_batch_size = 2
gradient_accumulation_steps = 4
warmup_steps = 5
num_train_epochs = 1
learning_rate = 2e-5
optim = "adamw_8bit"
weight_decay = 0.01
seed = 3407
代码专家模型:
suayptalha/Qwen3 - 0.6B - Code - Expert
该模型在nvidia/OpenCodeReasoning
数据集的前20000行上使用BF16进行了1个epoch的全量微调。
数学专家模型:
suayptalha/Qwen3 - 0.6B - Math - Expert
该模型在整个unsloth/OpenMathReasoning - mini
数据集上使用BF16进行了1个epoch的全量微调。
医学专家模型:
suayptalha/Qwen3 - 0.6B - Medical - Expert
该模型在FreedomIntelligence/medical - o1 - reasoning - SFT
数据集的前20000行上使用BF16进行了1个epoch的全量微调。
指令遵循专家模型:
Qwen/Qwen3 - 0.6B
Qwen/Qwen3 - 0.6B
模型直接用作此专家模型,未进行微调。
路由模型:
路由模型可在[此处](https://huggingface.co/suayptalha/MoE - Router - v2)找到,它是distilbert/distilbert - base - uncased
在7个不同数据集上训练得到的版本。
💻 使用示例
基础用法
import torch
from huggingface_hub import snapshot_download
from transformers import AutoModelForCausalLM, AutoTokenizer
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
local_dir = snapshot_download(
repo_id="suayptalha/Qwen3-2.4B-A0.6B",
)
model = AutoModelForCausalLM.from_pretrained(
local_dir,
trust_remote_code=True,
)
tokenizer = AutoTokenizer.from_pretrained(
local_dir,
)
model.to(device)
model.eval()
prompt = "I have pain in my chest, what should I do?"
messages = [{"role": "user", "content": prompt}]
prompt = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
with torch.no_grad():
output_ids = model.generate(
text=prompt,
max_new_tokens=1024,
temperature=0.6,
top_p=0.95,
)
output_text = tokenizer.decode(output_ids[0], skip_special_tokens=True)
print(output_text)
📄 许可证
本项目采用Apache License 2.0许可协议。有关详细信息,请参阅LICENSE文件。
💰 支持作者
如果您觉得这个项目有帮助,可以通过下面的链接请作者喝杯咖啡:
