视觉语言联合建模
Vica2 Stage2 Onevision Ft
Apache-2.0
ViCA2是一个7B参数规模的多模态视觉语言模型,专注于视频理解和视觉空间认知任务。
视频生成文本
Transformers
英语
V
nkkbr
63
0
Paligemma Multimodal Query Rewrite
基于google/paligemma-3b-pt-224微调的多模态查询重写模型
图像生成文本
Transformers
P
utischoolnlp
31
1
Llava V1.6 Vicuna 7b
LLaVA是一款开源的多模态聊天机器人,通过对多模态指令跟随数据进行大语言模型微调训练而成。
文本生成图像
Transformers
L
liuhaotian
31.65k
123
Eilev Blip2 Opt 2.7b
MIT
基于BLIP-2-OPT-2.7B训练的第一人称视角视频优化视觉语言模型,采用EILEV创新方法激发上下文学习能力
图像生成文本
Transformers
英语
E
kpyu
214
4
Llava Int4
CC
LLaVA是一个多模态大模型,通过连接视觉编码器与大语言模型实现通用视觉助手功能
文本生成图像
Transformers
L
emon-j
40
2
Matcha Chartqa
Apache-2.0
MatCha是一个增强视觉语言模型处理图表与语言数据能力的预训练模型,在图表问答任务上表现优异
文本生成图像
Transformers
支持多种语言
M
google
1,060
41
Matcha Chart2text Statista
Apache-2.0
基于Chart2text-statista数据集微调的视觉语言模型,擅长图表理解和数值推理
图像生成文本
Transformers
支持多种语言
M
google
73
10
Matcha Chart2text Pew
Apache-2.0
MatCha是基于Pix2Struct架构的视觉语言模型,专门针对图表理解和数值推理任务进行优化,在图表问答任务中表现优异
图像生成文本
Transformers
支持多种语言
M
google
168
39