长上下文支持

# 长上下文支持

Tiny Ko 124m Sft Muon

基于minpeter/tiny-ko-124m-base-muon模型在多个数据集上微调得到的韩语自然语言处理模型

大型语言模型

Qwen2.5 Wolverine CODER 11B Gguf

基于Qwen2.5-Coder-7B和OlympicCoder-7B融合的11B参数编码AI模型，能快速解决编程难题，生成高质量代码

大型语言模型支持多种语言

Qwen3 Embedding 4B GGUF

Qwen3-Embedding-4B是基于Qwen3系列构建的文本嵌入模型，专为文本嵌入和排序任务设计，在多语言文本处理和代码检索等方面表现优异。

Medgemma 4b It GGUF

MedGemma-4B-IT是基于Gemma 3的医学领域多模态模型，支持医学文本和图像理解，适用于医疗AI应用开发。

图像生成文本

MedGemma是基于Gemma 3开发的医学多模态模型，专注于医学文本和图像理解，支持构建医疗保健AI应用。

图像生成文本

Medgemma 27b Text It

MedGemma是基于Gemma 3优化的医学专用模型系列，提供270亿参数的纯文本版本，专为医学文本理解和推理优化。

大型语言模型

MedGemma是基于Gemma 3优化的医学多模态模型系列，专为医学文本和图像理解设计，提供4B和27B两种参数规模版本。

图像生成文本

MedGemma是基于Gemma 3优化的医学多模态模型，专为医疗文本和图像理解设计，提供4B和27B两个版本。

图像生成文本

Qwen3 0.6B GGUF

Qwen3-0.6B 是 Qwen 系列最新一代的 0.6B 参数规模的大语言模型，支持思维和非思维模式切换，具备强大的推理、指令遵循和多语言能力。

大型语言模型

Qwen3 30B A3B ERP V0.1

基于Qwen3-30B-A3B-NSFW-JP微调的角色扮演专用大语言模型，支持日语长文本生成

大型语言模型

Transformers 日语

Superthoughts Lite V2 MOE Llama3.2 GGUF

Superthoughts Lite v2是一个轻量级混合专家(MOE)模型，基于Llama-3.2架构，专注于推理任务，提供更高的准确性和性能。

大型语言模型支持多种语言

Qwen3 1.7B GGUF

通义千问系列大语言模型的最新版本，支持思维与非思维模式切换，具备强大的推理、多语言和智能体能力。

大型语言模型

GLM4 32B Neon V2

基于 GLM-4-32B-0414 的角色扮演微调版本，表现优秀，个性鲜明，风格多样，文笔优美。

大型语言模型

Transformers 英语

Qwen3 1.7B GGUF

Qwen3-1.7B是Qwen系列最新一代1.7B参数规模的大语言模型，支持在思考与非思考模式间切换，具备增强的推理能力和多语言支持。

大型语言模型英语

Qwen3 0.6B GGUF

Qwen3-0.6B是阿里云开发的0.6B参数规模的大语言模型，属于Qwen3系列的最新成员，支持100多种语言，具备强大的推理、指令遵循和多语言能力。

大型语言模型英语

Viper Coder V1.7 Vsm6

Viper-Coder-v1.7-Vsm6是基于千问2.5 14B模态架构设计的大语言模型，专注于提升编码效率和计算推理能力，优化内存使用并减少冗余文本生成。

大型语言模型

Transformers 支持多种语言

Qwen2-96M是基于Qwen2架构的微型语言模型，含9600万参数，支持8192个标记的上下文长度，适用于英文文本生成任务。

大型语言模型英语

Llama 3 70b Arimas Story RP V1.6 3.5bpw H6 Exl2

基于Llama-3-70B的合并模型，专注于故事生成和角色扮演(RP)任务，通过breadcrumbs_ties方法合并多个高质量模型

大型语言模型

Qwen2.5 1.5B Instruct

专为Gensyn RL Swarm设计的1.5B参数指令微调模型，支持通过点对点强化学习进行本地微调

大型语言模型

Transformers 英语

EXAONE Deep 7.8B GGUF

EXAONE Deep系列模型在数学和编程等推理任务中表现出色，7.8B版本优于同规模开源模型，甚至超越某些专有模型。

大型语言模型支持多种语言

Modernbert Base Tr Uncased

基于ModernBERT架构的土耳其语预训练模型，支持8192上下文长度，在多个领域表现优异

大型语言模型

Transformers 其他

ZYH LLM Qwen2.5 14B V4

ZYH-LLM-Qwen2.5-14B-V4是基于Qwen2.5-14B改进的大语言模型，通过多阶段模型合并和蒸馏技术提升了计算准确性和推理能力。

大型语言模型

Safetensors 支持多种语言

Jp ModernBERT Large Preview

由Algomatic团队训练的日语BERT模型，支持填充掩码任务，上下文长度达8192。

大型语言模型日语

Ganga-2-1b是一个基于印地语数据集训练的指令微调模型，是Project Unity项目的一部分，旨在处理印度语言的多样性和丰富性。

大型语言模型

Transformers 支持多种语言

Ola-7B是由腾讯、清华大学和南洋理工大学联合开发的多模态大语言模型，基于Qwen2.5架构，支持处理文本、图像、视频和音频输入，并生成文本输出。

多模态融合

Safetensors 支持多种语言

Falcon3 MoE 2x7B Insruct

Falcon3 7B-IT 与 7B-IT 的混合专家模型，具有134亿参数，支持英语、法语、西班牙语、葡萄牙语四种语言，上下文长度最高可达32K。

大型语言模型

Safetensors 英语

Llama3.1 Typhoon2 8b Instruct

Llama3.1-Typhoon2-8B是一个基于Transformer架构的泰语大语言模型（指令型），能够处理多种语言任务，为用户提供高效准确的语言交互服务。

大型语言模型

Jina Embeddings V2 Base Code GGUF

Jina Embeddings V2 Base Code 是一个基于转换器架构的英文文本嵌入模型，专注于代码相关文本的特征提取和句子相似度计算。

文本嵌入英语

Llama DNA 1.0 8B Instruct

基于Llama架构的最先进双语语言模型，特别优化了韩语理解和生成能力，同时保持强大的英语能力。

大型语言模型

Transformers 支持多种语言

H2o Danube3.1 4b Chat

由H2O.ai微调的40亿参数聊天模型，基于Llama 2架构调整，支持8192上下文长度

大型语言模型

Transformers 英语

Slush是一个采用高LoRA丢弃率训练的双阶段模型，专注于提升创造力和角色扮演能力

大型语言模型

Granite 8b Code Instruct 128k GGUF

IBM Granite 8B代码指令模型，支持128k上下文长度，专注于代码生成和指令理解任务。

大型语言模型

Transformers 其他

Magnum V4 72b FP8 Dynamic

基于Qwen2.5-72B-Instruct微调的72B参数大语言模型，采用动态FP8量化技术优化推理效率，旨在复现Claude 3的散文质量

大型语言模型

Transformers 英语

Allegro是一个开源的高质量文生视频生成模型，能够生成720x1280分辨率、15 FPS的6秒细节视频。

文本生成视频英语

Polish Reranker Bge V2

这是一个基于BAAI/bge-reranker-v2-m3并进一步在大规模波兰语文本对数据集上微调的重排序模型，支持长上下文处理。

Transformers 其他

Mistral Nemo BD RP

基于BeyondDialogue数据集微调的大型语言模型，专为中英文角色扮演场景设计

大型语言模型支持多种语言

Internvideo2 Chat 8B InternLM2 5

InternVideo2-Chat-8B-InternLM2.5是一个视频-文本多模态模型，通过整合InternVideo2视频编码器与大型语言模型(LLM)来增强视频理解和人机交互能力。

视频生成文本

Gte Multilingual Mlm Base

mGTE系列多语言文本编码器，支持75种语言，最大上下文长度8192，基于BERT+RoPE+GLU架构，在GLUE和XTREME-R基准上表现优异

大型语言模型

Jais Family 1p3b

Jais系列是专精阿拉伯语处理的双语大语言模型，具备强大的英语能力，参数量13亿

大型语言模型支持多种语言

H2o Danube3 4b Chat

H2O.ai 微调的40亿参数聊天模型，支持文本生成任务，可在手机上离线运行。

大型语言模型

Transformers 英语

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24