专家混合架构
Nomic Embed Text V2 Moe GGUF
Apache-2.0
多语言专家混合文本嵌入模型,支持约100种语言,在多语言检索方面表现卓越。
文本嵌入
支持多种语言
N
nomic-ai
14.06k
13
Qwen3 235B A22B GGUF
MIT
Qwen3-235B-A22B 是一个2350亿参数的大型语言模型,经过ik_llama.cpp分支的先进非线性量化处理,适用于高性能计算环境。
大型语言模型
Q
ubergarm
889
16
Doge 120M MoE Instruct
Apache-2.0
Doge模型采用动态掩码注意力机制进行序列转换,并可使用多层感知机或跨域专家混合进行状态转换。
大型语言模型
Transformers
英语
D
SmallDoge
240
1
Qwen2.5 MOE 2X1.5B DeepSeek Uncensored Censored 4B Gguf
Apache-2.0
这是一个Qwen2.5 MOE(专家混合)模型,由两个Qwen 2.5 DeepSeek(审查版/普通版和无审查版)1.5B模型组成,形成一个4B模型,其中无审查版本的DeepSeek Qwen 2.5 1.5B主导模型行为。
大型语言模型
支持多种语言
Q
DavidAU
678
5
Hiber Multi 10B Instruct
Hiber-Multi-10B-Instruct 是一个基于 Transformer 架构的先进多语言大模型,支持多种语言,具有100亿参数,适用于文本生成任务。
大型语言模型
Transformers
支持多种语言
H
Hibernates
86
2
Nomic Embed Text V2 Moe
Apache-2.0
Nomic Embed v2 是一款高性能多语言专家混合(MoE)文本嵌入模型,支持约100种语言,在多语言检索任务中表现卓越。
文本嵌入
支持多种语言
N
nomic-ai
242.32k
357
Llama 3.2 4X3B MOE Ultra Instruct 10B GGUF
Apache-2.0
基于Llama 3.2的专家混合模型,整合四个3B模型形成10B参数模型,支持128k上下文长度,擅长指令遵循和全场景生成。
大型语言模型
英语
L
DavidAU
277
7
Timemoe 200M
Apache-2.0
TimeMoE-200M 是一个基于专家混合(Mixture of Experts, MoE)架构的十亿级时间序列基础模型,专注于时间序列预测任务。
气候模型
T
Maple728
14.01k
7
Timemoe 50M
Apache-2.0
TimeMoE是一个基于专家混合(MoE)架构的十亿级时间序列基础模型,专注于时间序列预测任务。
材料科学
T
Maple728
22.02k
13
Chartmoe
Apache-2.0
ChartMoE是基于InternLM-XComposer2的多模态大语言模型,采用专家混合连接器,具备高级图表功能。
图像生成文本
Transformers
C
IDEA-FinAI
250
12
Deepseek V2 Lite
DeepSeek-V2-Lite 是一款经济高效的专家混合(MoE)语言模型,总参数量16B,激活参数量2.4B,支持32k上下文长度。
大型语言模型
Transformers
D
ZZichen
20
1
Dbrx Instruct
其他
Databricks开发的专家混合(MoE)大语言模型,专精于少量轮次交互场景
大型语言模型
Transformers
D
databricks
5,005
1,112
Moe LLaVA Qwen 1.8B 4e
Apache-2.0
MoE-LLaVA是一种基于专家混合架构的大型视觉语言模型,通过稀疏激活参数实现高效的多模态学习
文本生成图像
Transformers
M
LanguageBind
176
14
Bart Mofe Rl Xsum
Bsd-3-clause
MoFE是一种用于控制抽象摘要中幻觉生成的模型,通过混合事实专家来减少摘要中的不准确信息。
文本生成
Transformers
英语
B
praf-choub
23
0
Fairseq Dense 2.7B
基于Artetxe等人论文《高效大规模语言建模与专家混合方法》的27亿参数稠密模型转换版本
大型语言模型
Transformers
英语
F
KoboldAI
18
3