视觉语言理解
Blip Arabic Flickr 8k
MIT
基于BLIP架构微调的阿拉伯语图像字幕生成模型,专门针对Flickr8k阿拉伯语数据集优化
图像生成文本
Transformers
支持多种语言
B
omarsabri8756
56
1
Skywork R1V2 38B
MIT
天工-R1V2-38B是当前最先进的开源多模态推理模型,在多项基准测试中表现卓越,具备强大的视觉推理与文本理解能力。
图像生成文本
Transformers
S
Skywork
1,778
105
Skywork VL Reward 7B
MIT
Skywork-VL-Reward-7B是一个7B参数的多模态奖励模型,基于Qwen2.5-VL-7B-Instruct架构,增加了用于训练奖励模型的价值头结构。
多模态融合
Transformers
S
Skywork
30
8
Emova Qwen 2 5 3b
Apache-2.0
EMOVA是一种端到端全能模态大语言模型,支持视觉、听觉和语音功能,能够生成具有情感控制的文本和语音响应。
多模态融合
Transformers
支持多种语言
E
Emova-ollm
25
2
Gemma 3 4b It Qat GGUF
Gemma 3是谷歌推出的轻量级先进开放模型系列,基于创建Gemini模型的相同研究和技术构建。
文本生成图像
英语
G
unsloth
2,629
2
VL Rethinker 7B Mlx 4bit
Apache-2.0
VL-Rethinker-7B 4位MLX量化版是基于TIGER-Lab/VL-Rethinker-7B模型的量化版本,专为苹果设备优化,支持视觉问答任务。
文本生成图像
英语
V
TheCluster
14
0
Llama 3.2 11B Vision Radiology Mini
这是一个基于Llama架构的多模态模型,支持视觉和文本指令,经过4位量化优化。
图像生成文本
L
p4rzvl
69
0
Internvl3 78B Pretrained
其他
InternVL3-78B是OpenGVLab推出的先进多模态大语言模型,展现卓越的综合性能。
文本生成图像
Transformers
其他
I
OpenGVLab
22
1
VL Rethinker 7B Fp16
Apache-2.0
该模型是基于Qwen2.5-VL-7B-Instruct转换而来的多模态视觉语言模型,支持视觉问答任务。
文本生成图像
Transformers
英语
V
mlx-community
17
0
VL Rethinker 72B 4bit
Apache-2.0
VL-Rethinker-72B-4bit是一个基于Qwen2.5-VL-7B-Instruct的多模态模型,支持视觉问答任务,已转换为MLX格式以便在苹果设备上高效运行。
文本生成图像
Transformers
英语
V
mlx-community
26
0
Vora 7B Base
VoRA是一个基于7B参数的视觉语言模型,能够处理图像和文本输入,生成文本输出。
图像生成文本
Transformers
V
Hon-Wong
62
4
Qwen2.5 VL 72B Instruct GGUF
其他
Qwen2.5-VL-72B-Instruct是一个72B参数规模的多模态大模型,支持视觉-语言任务,能够理解和生成与图像相关的文本内容。
文本生成图像
英语
Q
Mungert
2,798
5
3B Curr ReFT
Apache-2.0
基于Qwen2.5-VL通过创新性Curr-ReFT方法微调的多模态大语言模型,显著提升了视觉语言理解与推理能力。
文本生成图像
3
ZTE-AIM
37
3
Internvl2 5 HiMTok 8B
Apache-2.0
HiMTok是一个基于InternVL2_5-8B大型多模态模型微调的分层掩码标记学习框架,专注于图像分割任务。
图像生成文本
I
yayafengzi
16
3
Rexseek 3B
其他
这是一个图像文本到文本的转换模型,能够处理图像和文本输入,生成相应的文本输出。
文本生成图像
Transformers
R
IDEA-Research
186
4
Qwen2 VL 7B Captioner Relaxed GGUF
Apache-2.0
该模型是基于Qwen2-VL-7B-Captioner-Relaxed转换的GGUF格式版本,专为图像转文本任务优化,支持通过llama.cpp和Koboldcpp等工具运行。
图像生成文本
英语
Q
r3b31
321
1
Mmmamba Linear
MIT
mmMamba-linear是首个通过中等学术计算资源实现二次到线性蒸馏的纯解码器多模态状态空间模型,具有高效的多模态处理能力。
图像生成文本
Transformers
M
hustvl
16
3
MM RLHF Reward 7B Llava Ov Qwen
MIT
这是一个图像文本到文本的转换模型,能够将输入的图像和文本转换为新的文本输出。
图像生成文本
Transformers
M
yifanzhang114
25
1
Deepseer R1 Vision Distill Qwen 1.5B Google Vit Base Patch16 224
Apache-2.0
DeepSeer是基于DeepSeek-R1模型开发的视觉语言模型,支持思维链推理能力,通过对话模板训练视觉模型。
图像生成文本
Transformers
D
mehmetkeremturkcan
25
2
Migician
Apache-2.0
魔术师是首个具备自由形式多图像定位能力的多模态大语言模型,在复杂多图像场景中实现精确定位,性能超越70B规模模型。
文本生成图像
Transformers
英语
M
Michael4933
83
1
Minivla Vq Libero90 Prismatic
MIT
MiniVLA是一个轻量级的视觉语言模型,兼容Prismatic VLMs训练框架,支持图像文本到文本的多模态任务。
图像生成文本
Transformers
英语
M
Stanford-ILIAD
31
0
Glm Edge V 5b
其他
GLM-Edge-V-5B是一个50亿参数的多模态模型,支持图像和文本输入,能够执行图像理解和文本生成任务。
图像生成文本
G
THUDM
4,357
12
Emu3 Stage1
Apache-2.0
Emu3是由北京智源研究院开发的多模态模型,仅通过预测下一个标记训练而成,支持图像、文本和视频处理。
文本生成图像
Transformers
E
BAAI
1,359
26
Llama 3 EvoVLM JP V2
Llama-3-EvoVLM-JP-v2 是一款实验性通用日语视觉语言模型,支持交错输入文本和图像。
图像生成文本
Transformers
日语
L
SakanaAI
475
20
Cephalo Idefics 2 Vision 10b Alpha
Apache-2.0
Cephalo是一系列专注于多模态材料科学的视觉大语言模型(V-LLMs),旨在整合视觉和语言数据,以促进人机交互或多智能体AI框架中的高级理解和交互。
图像生成文本
Transformers
其他
C
lamm-mit
137
1
Denseconnector V1.5 8B
DenseConnector 是一个开源聊天机器人,基于 LLaMA/Vicuna 微调,并利用 GPT 生成的多模态指令跟随数据进行训练。
图像生成文本
Transformers
D
HuanjinYao
17
7
Cephalo Idefics 2 Vision 8b Alpha
Apache-2.0
Cephalo是一系列专注于多模态材料科学的视觉大语言模型(V-LLMs),旨在整合视觉和语言数据,以促进人机交互或多智能体AI框架中的高级理解和互动。
图像生成文本
Transformers
其他
C
lamm-mit
150
1
Llava Jp 1.3b V1.1
LLaVA-JP是一个支持日语的多模态视觉语言模型,能够理解和生成关于输入图像的描述和对话。
图像生成文本
Transformers
日语
L
toshi456
90
11
Image Model
这是一个基于transformers的图像到文本转换模型,具体功能需进一步补充
图像生成文本
Transformers
I
Mouwiya
15
0
Llava Next Mistral 7b 4096
基于LLaVA-v1.6-Mistral-7B模型微调的多模态模型,支持图像和文本的联合理解与生成
文本生成图像
Transformers
L
Mantis-VL
40
2
Tinyllava 1.5B
Apache-2.0
TinyLLaVA是一个小型大规模多模态模型框架,专注于视觉语言任务,参数规模小但性能优异。
图像生成文本
Transformers
支持多种语言
T
bczhou
553
17
Tinyllava 3.1B
Apache-2.0
TinyLLaVA是一个小规模大型多模态模型框架,在保持高性能的同时显著减少参数数量。
文本生成图像
Transformers
支持多种语言
T
bczhou
184
26
Llava V1.5 13b Dpo Gguf
LLaVA-v1.5-13B-DPO 是一个基于LLaVA框架的视觉语言模型,经过直接偏好优化(DPO)训练,并转换为GGUF量化格式以提高推理效率。
图像生成文本
L
antiven0m
30
0
Llava V1.6 34b
Apache-2.0
LLaVA是一个开源的多模态聊天机器人,基于大语言模型微调训练而成,支持图像和文本的交互。
文本生成图像
L
liuhaotian
9,033
351
Moe LLaVA StableLM 1.6B 4e
Apache-2.0
MoE-LLaVA是一种基于专家混合架构的大规模视觉语言模型,通过稀疏激活参数实现高效的多模态学习。
文本生成图像
Transformers
M
LanguageBind
125
8
Tiny Llava V1 Hf
Apache-2.0
TinyLLaVA是一个小型大规模多模态模型框架,专注于视觉语言任务,参数规模小但性能优异。
图像生成文本
Transformers
支持多种语言
T
bczhou
2,372
57
Kosmos 2 Patch14 224
MIT
Kosmos-2是一个多模态大语言模型,能够理解和生成与图像相关的文本描述,并实现文本与图像区域的关联。
图像生成文本
Transformers
K
microsoft
171.99k
162
Llava 7B Lightening V1 1
LLaVA-Lightning-7B是一个基于LLaMA-7B的多模态模型,通过增量参数调整实现高效的视觉-语言任务处理。
大型语言模型
Transformers
L
mmaaz60
1,736
10
Saved Model Git Base
MIT
基于microsoft/git-base在图像文件夹数据集上微调的视觉语言模型,主要用于图像描述生成任务
图像生成文本
Transformers
其他
S
holipori
13
0
Video Blip Opt 2.7b Ego4d
MIT
VideoBLIP是BLIP-2的增强版本,能够处理视频数据,采用OPT-2.7b作为语言模型主干。
视频生成文本
Transformers
英语
V
kpyu
429
16