超长上下文支持

# 超长上下文支持

ERNIE 4.5 300B A47B PT GGUF

ERNIE-4.5-300B-A47B 是一款文本 MoE 后训练模型，拥有 3000 亿的总参数，每个标记有 470 亿的激活参数。该模型具备多模态异构 MoE 预训练、高效扩展基础设施和特定模态后训练等先进技术，能在文本理解与生成、图像理解及跨模态推理等任务中表现出色。

大型语言模型

Transformers 支持多种语言

Dans PersonalityEngine V1.3.0 24b Q4 K M GGUF

基于Mistral-Small-3.1-24B-Base-2503的多语言文本生成模型，支持10种语言，适用于角色扮演和对话场景

大型语言模型

INTELLECT 2 GGUF

INTELLECT 2是由PrimeIntellect推出的大语言模型，支持40960 tokens的上下文长度，采用QwQ架构和GRPO强化学习框架训练。

大型语言模型

lmstudio-community

Kevin 32B是由Cognition AI开发的大语言模型，支持超长上下文（40960 tokens），专注于CUDA内核生成和强化学习任务。

大型语言模型

lmstudio-community

Bielik 4.5B V3.0 Instruct GGUF

Bielik-4.5B-v3.0-Instruct 是一个基于波兰语的大型语言模型，专注于指令跟随任务。

大型语言模型

Transformers 其他

Qwen3-4B是通义千问系列最新一代40亿参数大语言模型，支持思维与非思维模式切换，具备强大的推理、指令遵循和智能体能力。

大型语言模型

Qwen3是通义千问系列大语言模型的最新迭代，提供稠密模型与混合专家（MoE）模型的完整套件。基于大规模训练，Qwen3在推理能力、指令遵循、智能体功能及多语言支持方面实现突破性进展。

大型语言模型

Qwen3 235B A22B AWQ

Qwen3-235B-A22B是Qwen系列最新一代的大语言模型，采用混合专家(MoE)架构，具有2350亿参数和220亿激活参数，在推理、指令遵循、代理能力和多语言支持方面表现卓越。

大型语言模型

cognitivecomputations

Qwen3是通义千问系列大语言模型的最新版本，提供全系列的稠密模型与混合专家（MoE）模型，在推理能力、指令遵循、智能体功能和多语言支持方面实现重大突破。

大型语言模型

Shuttle-3.5是基于Qwen3 32b微调的版本，模拟了Claude 3模型的写作风格，并全面训练了角色扮演数据。

大型语言模型

Transformers 英语

Qwen3是通义千问系列最新一代大语言模型，提供完整的稠密模型与混合专家(MoE)模型套件。基于大规模训练，Qwen3在推理、指令跟随、智能体能力和多语言支持方面实现突破性进展。

大型语言模型

Qwen3 32B GPTQ Int8

Qwen3-8B 是 Qwen3 系列中的一款大语言模型，具备因果语言模型的特性，在推理、多语言支持、智能体能力等方面表现出色，能为用户带来自然、流畅的对话体验。

大型语言模型

Qwen3-32B是由Qwen团队开发的大语言模型，支持131,072 tokens的上下文长度，具备强大的数学、编程和常识推理能力。

大型语言模型

lmstudio-community

Qwen3 30B A3B GGUF

Qwen3是阿里云开发的最新大语言模型系列，支持思维模式与非思维模式动态切换，在推理、多语言支持和智能体能力方面表现突出。

大型语言模型英语

Qwen3-14B是由Qwen开发的大语言模型，支持多种语言和方言，擅长创意写作、角色扮演和多轮对话。

大型语言模型

lmstudio-community

Qwen3-4B-FP8是通义千问系列最新的大语言模型，提供40亿参数的FP8量化版本，支持思维与非思维模式切换，在推理、指令遵循和智能体能力方面表现卓越。

大型语言模型

Qwen3-8B 是 Qwen 系列的最新大语言模型，具备多种先进特性，支持多语言，在推理、指令跟随等方面表现出色，能为用户带来更智能、自然的交互体验。

大型语言模型

Fluentlylm Prinum

流畅语言模型项目的首个独立模型，32.5B参数量的因果语言模型，支持多种语言和任务。

大型语言模型

Transformers 支持多种语言

Llama 3.1 405B Instruct FP8

NVIDIA Llama 3.1 405B Instruct FP8模型是Meta的Llama 3.1 405B Instruct模型的量化版本，采用优化的Transformer架构，是一个自回归语言模型。该模型可用于商业或非商业用途。

大型语言模型

Deepseek V2 Lite Chat GGUF

DeepSeek-V2-Lite-Chat 是一个轻量级聊天模型，基于 DeepSeek-V2 架构优化，适用于高效的对话生成任务。

大型语言模型

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24