长视频理解
Qwen2.5 VL 7B Instruct GGUF
Apache-2.0
Qwen2.5-VL是Qwen家族最新推出的视觉语言模型,具备强大的视觉理解和多模态处理能力,支持图像、视频分析和结构化输出。
图像生成文本
英语
Q
unsloth
8,427
4
Llavaction 0.5B
LLaVAction是一个用于动作识别的多模态大语言模型,基于Qwen2语言模型,在EPIC-KITCHENS-100-MQA数据集上训练而成。
视频生成文本
Transformers
英语
L
MLAdaptiveIntelligence
215
1
Vamba Qwen2 VL 7B
MIT
Vamba是一种混合Mamba-Transformer架构,通过交叉注意力层与Mamba-2模块实现高效的长视频理解。
视频生成文本
Transformers
V
TIGER-Lab
806
16
Qwen2.5 VL 3B Instruct 4bit
Qwen2.5-VL是Qwen家族的最新视觉语言模型,具备增强的视觉理解、智能体功能和长视频处理能力。
文本生成图像
Transformers
英语
Q
jarvisvasu
174
3
Internvl 2 5 HiCo R64
Apache-2.0
基于长且丰富的上下文(LRC)建模增强的视频多模态大语言模型,通过提升感知细粒度细节和捕捉长时态结构的能力改进现有MLLM
视频生成文本
Transformers
英语
I
OpenGVLab
252
2
Internvideo2 5 Chat 8B
Apache-2.0
InternVideo2.5是一款基于长且丰富上下文(LRC)建模增强的视频多模态大语言模型,构建于InternVL2.5之上,通过提升感知细粒度细节和捕捉长时序结构的能力,显著改进了现有MLLM模型。
视频生成文本
Transformers
英语
I
OpenGVLab
8,265
60
Llava Video 7B Qwen2 TPO
MIT
LLaVA-Video-7B-Qwen2-TPO是基于LLaVA-Video-7B-Qwen2进行时间偏好优化的视频理解模型,在多个基准测试中表现优异。
视频生成文本
Transformers
L
ruili0
490
1
Longva 7B TPO
MIT
LongVA-7B-TPO是基于LongVA-7B通过时序偏好优化而来的视频-文本模型,在长视频理解任务中表现优异。
视频生成文本
Transformers
L
ruili0
225
1
Apollo LMMs Apollo 7B T32
Apache-2.0
Apollo是一系列专注于视频理解的大型多模态模型,擅长处理长达一小时的视频内容,支持复杂视频问答和多轮对话。
视频生成文本
Transformers
英语
A
GoodiesHere
67
55
Apollo LMMs Apollo 1 5B T32
Apache-2.0
Apollo 是一系列专注于视频理解的大型多模态模型,擅长处理长视频内容理解、时序推理和复杂视频问答等任务。
视频生成文本
A
GoodiesHere
37
10
Longvu Llama3 2 1B
Apache-2.0
LongVU 是一种面向长视频语言理解的时空自适应压缩技术,旨在高效处理长视频内容,提升语言理解能力。
视频生成文本
L
Vision-CAIR
465
11
Oryx 1.5 7B
Apache-2.0
Oryx-1.5-7B是基于Qwen2.5语言模型开发的7B参数模型,支持32K tokens上下文窗口,专注于高效处理任意空间尺寸和时长的视觉输入。
文本生成视频
Safetensors
支持多种语言
O
THUdyh
133
7
Longvu Llama3 2 3B
Apache-2.0
LongVU是一种面向长视频语言理解的时空自适应压缩技术,旨在高效处理长视频内容。
视频生成文本
PyTorch
L
Vision-CAIR
1,079
7
Longvu Qwen2 7B
Apache-2.0
LongVU是基于Qwen2-7B的多模态模型,专注于长视频语言理解任务,采用时空自适应压缩技术。
视频生成文本
L
Vision-CAIR
230
69
Llava Video 7B Qwen2
Apache-2.0
LLaVA-视频模型是基于Qwen2语言模型的7B参数多模态模型,专注于视频理解任务,支持64帧视频输入。
视频生成文本
Transformers
英语
L
lmms-lab
34.28k
91
Kangaroo
Apache-2.0
袋鼠是一个专为长视频理解设计的强大多模态大语言模型,支持中英双语对话和长视频输入。
视频生成文本
Transformers
支持多种语言
K
KangarooGroup
163
12
Timesformer Large Finetuned K400
TimeSformer是一个基于空间-时间注意力机制的视频分类模型,专门用于视频理解任务。
视频处理
Transformers
T
fcakyon
254
0
Timesformer Base Finetuned K600
TimeSformer是基于空间-时间注意力机制的视频分类模型,在Kinetics-600数据集上进行了微调。
视频处理
Transformers
T
fcakyon
20
0