Dimple 7B
Apache-2.0
Dimple是首个结合自回归与扩散训练范式的离散扩散多模态大语言模型(DMLLM),在LLaVA-NEXT相同数据集上训练后,以3.9%的优势超越LLaVA-NEXT-7B。
图像生成文本
Transformers

英语
D
rp-yu
422
3
Qwen3 8B GGUF
Apache-2.0
Qwen团队推出的8B参数规模大语言模型,支持超长上下文和多种语言处理
大型语言模型
Q
lmstudio-community
39.45k
6
Qwen2.5 VL 72B Instruct GGUF
其他
Qwen2.5-VL-72B-Instruct是一个72B参数规模的多模态大模型,支持视觉-语言任务,能够理解和生成与图像相关的文本内容。
文本生成图像
英语
Q
Mungert
2,798
5
Smolvlm2 500M Video Instruct Mlx 8bit Skip Vision
Apache-2.0
基于SmolVLM2-500M-Video-Instruct转换的MLX格式模型,支持视频文本转文本任务
图像生成文本
Transformers

英语
S
mlx-community
51
2
Documentcogito
Apache-2.0
基于unsloth/Llama-3.2-11B-Vision-Instruct进行精调的多模态模型,针对视觉-语言任务优化并增强指令跟随能力,通过Unsloth框架实现2倍训练加速
文本生成图像
Transformers

英语
D
Daemontatox
73
1
Turkish LLaVA V0.1
MIT
一个专为多模态视觉指令跟随任务设计的土耳其语视觉语言模型,能够同时处理视觉(图像)和文本输入,理解并执行土耳其语提供的指令。
图像生成文本
Safetensors
其他
T
ytu-ce-cosmos
86
10
Llama 3.2 11B Vision Instruct Nf4
基于meta-llama/Llama-3.2-11B-Vision-Instruct的4位量化版本,支持图像理解和文本生成任务
图像生成文本
Transformers

L
SeanScripts
658
12
Spydaz Web AI Llava
LLaVa是一个开源多模态聊天机器人,通过对LLaMA/Vicuna在GPT生成的多模态指令跟随数据上进行微调训练而成,专门为聊天/指令优化的多模态版本LLM。
图像生成文本
Transformers

支持多种语言
_
LeroyDyer
30
1
Llava 1.5 7b Llara D Inbc Aux B VIMA 80k
Apache-2.0
LLaRA是一个开源视觉运动策略模型,通过微调LLaVA-7b-v1.5在指令跟随数据和辅助数据集上训练而成,主要用于机器人技术研究。
文本生成文本
Transformers

L
variante
390
2
Denseconnector V1.5 8B
DenseConnector 是一个开源聊天机器人,基于 LLaMA/Vicuna 微调,并利用 GPT 生成的多模态指令跟随数据进行训练。
图像生成文本
Transformers

D
HuanjinYao
17
7
Llava V1.6 Vicuna 7b
LLaVA是一款开源的多模态聊天机器人,通过对多模态指令跟随数据进行大语言模型微调训练而成。
文本生成图像
Transformers

L
liuhaotian
31.65k
123
Llava V1.6 34b
Apache-2.0
LLaVA是一个开源的多模态聊天机器人,基于大语言模型微调训练而成,支持图像和文本的交互。
文本生成图像
L
liuhaotian
9,033
351
Llama Vid 7b Full 224 Video Fps 1
LLaMA-VID是基于LLaMA/Vicuna微调的开源多模态聊天机器人,通过扩展上下文令牌支持长达数小时的视频处理能力。
文本生成视频
Transformers

L
YanweiLi
86
9
Llava Int4
CC
LLaVA是一个多模态大模型,通过连接视觉编码器与大语言模型实现通用视觉助手功能
文本生成图像
Transformers

L
emon-j
40
2
Japanese Stable Vlm
其他
一款视觉语言指令跟随模型,能够为输入图像生成日语描述,并可选地处理输入文本(如问题)。
图像生成文本
Transformers

日语
J
stabilityai
122
48
Bakllava 1
Apache-2.0
BakLLaVA-1是基于Mistral 7B模型,并采用LLaVA 1.5架构增强的多模态模型,在多个基准测试上超越了Llama 2 13B的表现。
文本生成图像
Transformers

英语
B
SkunkworksAI
152
380
Llava V1.5 Mlp2x 336px Pretrain Vicuna 7b V1.5
LLaVA 是一个开源多模态聊天机器人,基于 LLaMA/Vicuna 进行微调,通过 GPT 生成的多模态指令跟随数据训练而成。
文本生成图像
Transformers

L
liuhaotian
173
17
Llava V1.5 7b
LLaVA 是一款开源多模态聊天机器人,基于 LLaMA/Vicuna 微调,支持图文交互。
图像生成文本
Transformers

L
liuhaotian
1.4M
448
Speechgpt 7B Cm
SpeechGPT是一个具备内在跨模态对话能力的大型语言模型,能够感知和生成多模态内容,支持语音与文本的交互。
文本生成音频
Transformers

S
fnlp
47
7
Speechgpt 7B Ma
SpeechGPT是一个具备内在跨模态对话能力的大型语言模型,能够根据人类指令感知和生成多模态内容。
文本生成音频
Transformers

S
fnlp
37
5
Instructblip Vicuna 7b 8bit
InstructBLIP-Vicuna-7B 是一个基于 Vicuna-7B 的视觉-语言模型,支持图像到文本的转换任务。
图像生成文本
Transformers

I
Mediocreatmybest
24
3
Llava Llama 2 7b Chat Lightning Lora Preview
LLaVA是一款开源多模态聊天机器人,基于LLaMA/Vicuna微调,通过GPT生成的多模态指令跟随数据训练而成。
文本生成图像
Transformers

L
liuhaotian
251
12
Llava Lightning 7B Delta V1 1
Apache-2.0
LLaVA是基于LLaMA/Vicuna通过GPT生成的多模态指令跟随数据微调的开源聊天机器人
文本生成图像
Transformers

L
liuhaotian
699
21
Llava 7b Delta V0
Apache-2.0
LLaVA是基于LLaMA/Vicuna通过GPT生成的多模态指令跟随数据微调的开源聊天机器人,支持视觉与语言的多模态交互。
文本生成图像
Transformers

L
liuhaotian
131
17
Llava 13b Delta V0
Apache-2.0
LLaVA是基于LLaMA/Vicuna通过GPT生成的多模态指令跟随数据微调的开源聊天机器人,属于基于Transformer架构的自回归语言模型。
文本生成图像
Transformers

L
liuhaotian
352
221
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers

支持多种语言
L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers

英语
C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统
中文
R
uer
2,694
98
AIbase是一个专注于MCP服务的平台,为AI开发者提供高质量的模型上下文协议服务,助力AI应用开发。
简体中文