长上下文推理

# 长上下文推理

Deepseek R1 0528 AWQ

DeepSeek R1 0528的AWQ量化模型，支持使用vLLM在8块80GB GPU上以全上下文长度运行。

大型语言模型

Transformers 支持多种语言

cognitivecomputations

Qwenlong L1 32B

QwenLong-L1是基于强化学习训练的长上下文大推理模型，在七个长上下文文档问答基准测试中表现优异。

大型语言模型

Llama 3.1 Nemotron Nano 4B V1.1 GGUF

由英伟达发布的4B参数规模大语言模型，支持128k tokens上下文长度，专为推理、对话及RAG等任务优化

大型语言模型英语

lmstudio-community

AM Thinking V1 GGUF

AM Thinking v1是由A-M团队开发的基于Qwen 2.5-32B-Base的大语言模型，增强推理能力，支持132k tokens的上下文长度。

大型语言模型

lmstudio-community

M1ndb0t 0M3N Q4 K M GGUF

基于Qwen3-14B大语言模型的高性能GGUF转换版本，专为创造性推理、深层梦境逻辑、智能体交互和多语言指令优化

大型语言模型英语

TheMindExpansionNetwork

dots.llm1 是一个大规模的 MoE 模型，在 1420 亿总参数中激活 140 亿参数，性能可与最先进的模型相媲美。

大型语言模型

Transformers 支持多种语言

Dans PersonalityEngine V1.3.0 12b

基于50+专业数据集微调的多功能模型，擅长创意任务和技术挑战，支持10种语言

大型语言模型

Dans PersonalityEngine V1.3.0 24b

一个基于50多个专业数据集微调的多功能模型系列，在创意任务和技术挑战方面均表现出色

大型语言模型

Qwen2.5 Math 7B RoPE 300k

Qwen2.5-Math-7B-RoPE-300k是基于Qwen2.5-Math-7B的变体，通过调整旋转位置编码的基础频率扩展了上下文长度至32k标记。

大型语言模型

Transformers 英语

Phi 4 Reasoning Plus

Phi-4推理增强版是微软研究院开发的140亿参数开源推理模型，通过监督微调和强化学习优化，专注于数学、科学和编程领域的高级推理能力。

大型语言模型

Transformers 支持多种语言

Qwen3 8B NEO Imatrix Max GGUF

基于Qwen3-8B模型的NEO Imatrix量化版本，支持32K长上下文和增强推理能力

大型语言模型

Qwen3 4B NEO Imatrix Max GGUF

这是基于Qwen3-4B模型的NEO Imatrix量化版本，采用BF16格式的MAX输出张量以提升推理和输出生成能力，支持32k上下文长度。

大型语言模型

Qwen3 30B A3B Base

Qwen3-30B-A3B-Base是通义千问系列最新一代30.5B参数规模的混合专家（MoE）大语言模型，支持119种语言和32k上下文长度。

大型语言模型

Qwen3-0.6B是通义千问系列最新一代0.6B参数规模的大语言模型，支持思维与非思维模式切换，具备强大的推理、指令遵循和智能体能力。

大型语言模型

Delta Pavonis Qwen 14B

基于千问2.5 14B模态架构设计的增强推理模型，优化通用推理与问答场景，支持128K上下文和8K输出

大型语言模型

Llama 3 70b Arimas Story RP V1.6 4.0bpw H6 Exl2

基于Llama 3 70B架构的合并模型，专为故事生成和角色扮演优化，支持长上下文窗口

大型语言模型

Gemma 3 R1984 4B

Gemma3-R1984-4B是基于谷歌Gemma-3-4B模型构建的强大智能体AI平台，支持多模态文件处理和深度研究能力。

图像生成文本

Transformers 支持多种语言

Granite 3.3 2b Instruct GGUF

IBM-Granite的20亿参数指导模型，支持多语言和长上下文任务，具备结构化推理能力。

大型语言模型

lmstudio-community

Llama 4 Maverick 17B 128E Instruct FP8

Llama 4系列是Meta开发的多模态AI模型，支持文本与图像交互，采用混合专家架构(MoE)，在文本和图像理解方面具有行业领先性能。

文本生成图像

Transformers 支持多种语言

Raptor X5 UIGEN

Raptor-X5-UIGEN是基于Qwen 2.5 14B模态架构设计的大语言模型，专注于UI设计、极简编码和内容密集型开发，具有增强的推理能力和结构化响应生成。

大型语言模型

Transformers 英语

Granite 3.2 2b Instruct GGUF

Granite-3.2-2B-Instruct是一个20亿参数的长上下文AI模型，专为思维推理能力微调。基于Granite-3.1-2B-Instruct构建，通过混合使用宽松许可的开源数据集和内部生成的合成数据训练，旨在提升推理任务表现。

大型语言模型

Theta Lyrae Qwen 14B

Theta-Lyrae-Qwen-14B是基于Qwen 2.5 14B模态架构设计的140亿参数模型，优化了通用推理和问答能力，在上下文理解、逻辑推理和多步骤问题解决方面表现优异。

大型语言模型

Galactic Qwen 14B Exp2

Galactic-Qwen-14B-Exp2 是基于 Qwen 2.5 14B 架构设计的大语言模型，专注于增强推理能力，擅长上下文理解、逻辑推理和多步骤问题解决。

大型语言模型

Transformers 支持多种语言

Romboultima 32B

RombUltima-32B 是一个融合模型，结合了 Rombos-LLM-V2.5-Qwen-32b 和 Ultima-32B 的优势，优化了推理能力、多语言理解能力以及多轮对话表现。

大型语言模型

Modernbert Base Nli

ModernBERT 是一个在多任务源的自然语言推理（NLI）任务上微调的模型，擅长零样本分类和长上下文推理。

大型语言模型

Transformers 支持多种语言

Smart Lemon Cookie 7B GGUF

基于GGUF格式的无审查角色扮演模型，具有出色的推理和上下文跟踪能力，适用于本地AI聊天应用。

大型语言模型

C4ai Command R Plus Imat.gguf

C4AI Command R+是1040亿参数的多语言大语言模型，支持检索增强生成(RAG)和工具调用，优化了推理、摘要和问答等任务。

大型语言模型

C4ai Command R Plus

Command R+是Cohere Labs推出的1040亿参数开放权重研究版本模型，具备检索增强生成（RAG）和工具使用能力，支持多语言和多步任务自动化。

大型语言模型

Transformers 支持多种语言

Codellama 70b Hf

Code Llama是Meta推出的70亿至700亿参数规模的代码生成与理解模型系列，本模型为700亿参数基础版

大型语言模型

Transformers 其他

Einstein-v4-7B是基于Mistral-7B-v0.1在多样化科学数据集上完整微调的大语言模型，专注于STEM领域任务

大型语言模型

Transformers 英语

Tinyllama 1.1B 32k

基于TinyLlama-1.1B的32k上下文微调版本，通过增大rope theta实现长上下文处理能力

大型语言模型

Transformers 英语

Mixtral 8x7B Instruct V0.1

Mixtral-8x7B是一个预训练的生成式稀疏混合专家模型，在多数基准测试中表现优于Llama 2 70B。

大型语言模型

Transformers 支持多种语言

基于T5架构的编码器-解码器模型，通过Flan提示调优优化，支持多语言任务处理

大型语言模型

Transformers 支持多种语言

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24