专家混合架构

# 专家混合架构

Nomic Embed Text V2 Moe GGUF

多语言专家混合文本嵌入模型，支持约100种语言，在多语言检索方面表现卓越。

文本嵌入支持多种语言

Qwen3 235B A22B GGUF

Qwen3-235B-A22B 是一个2350亿参数的大型语言模型，经过ik_llama.cpp分支的先进非线性量化处理，适用于高性能计算环境。

大型语言模型

Doge 120M MoE Instruct

Doge模型采用动态掩码注意力机制进行序列转换，并可使用多层感知机或跨域专家混合进行状态转换。

大型语言模型

Transformers 英语

Qwen2.5 MOE 2X1.5B DeepSeek Uncensored Censored 4B Gguf

这是一个Qwen2.5 MOE（专家混合）模型，由两个Qwen 2.5 DeepSeek（审查版/普通版和无审查版）1.5B模型组成，形成一个4B模型，其中无审查版本的DeepSeek Qwen 2.5 1.5B主导模型行为。

大型语言模型支持多种语言

Hiber Multi 10B Instruct

Hiber-Multi-10B-Instruct 是一个基于 Transformer 架构的先进多语言大模型，支持多种语言，具有100亿参数，适用于文本生成任务。

大型语言模型

Transformers 支持多种语言

Nomic Embed Text V2 Moe

Nomic Embed v2 是一款高性能多语言专家混合(MoE)文本嵌入模型，支持约100种语言，在多语言检索任务中表现卓越。

文本嵌入支持多种语言

Llama 3.2 4X3B MOE Ultra Instruct 10B GGUF

基于Llama 3.2的专家混合模型，整合四个3B模型形成10B参数模型，支持128k上下文长度，擅长指令遵循和全场景生成。

大型语言模型英语

TimeMoE-200M 是一个基于专家混合（Mixture of Experts, MoE）架构的十亿级时间序列基础模型，专注于时间序列预测任务。

TimeMoE是一个基于专家混合(MoE)架构的十亿级时间序列基础模型，专注于时间序列预测任务。

ChartMoE是基于InternLM-XComposer2的多模态大语言模型，采用专家混合连接器，具备高级图表功能。

图像生成文本

Deepseek V2 Lite

DeepSeek-V2-Lite 是一款经济高效的专家混合（MoE）语言模型，总参数量16B，激活参数量2.4B，支持32k上下文长度。

大型语言模型

Databricks开发的专家混合(MoE)大语言模型，专精于少量轮次交互场景

大型语言模型

Tinymistral 6x248M Instruct

基于专家混合（MoE）架构微调的语言模型，通过LazyMergekit框架融合多个模型，在指令任务中表现出色。

大型语言模型

Transformers 英语

Moe LLaVA Qwen 1.8B 4e

MoE-LLaVA是一种基于专家混合架构的大型视觉语言模型，通过稀疏激活参数实现高效的多模态学习

文本生成图像

Bart Mofe Rl Xsum

MoFE是一种用于控制抽象摘要中幻觉生成的模型，通过混合事实专家来减少摘要中的不准确信息。

Transformers 英语

Fairseq Dense 2.7B

基于Artetxe等人论文《高效大规模语言建模与专家混合方法》的27亿参数稠密模型转换版本

大型语言模型

Transformers 英语

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24