Qwen2.5 VL 7B Instruct GGUF
Apache-2.0
Qwen2.5-VL是Qwen家族最新推出的视觉语言模型,具备强大的视觉理解和多模态处理能力,支持图像、视频分析和结构化输出。
图像生成文本
英语
Q
unsloth
8,427
4
Llavaction 0.5B
LLaVAction是一个用于动作识别的多模态大语言模型,基于Qwen2语言模型,在EPIC-KITCHENS-100-MQA数据集上训练而成。
视频生成文本
Transformers

英语
L
MLAdaptiveIntelligence
215
1
Vamba Qwen2 VL 7B
MIT
Vamba是一种混合Mamba-Transformer架构,通过交叉注意力层与Mamba-2模块实现高效的长视频理解。
视频生成文本
Transformers

V
TIGER-Lab
806
16
Qwen2.5 VL 3B Instruct 4bit
Qwen2.5-VL是Qwen家族的最新视觉语言模型,具备增强的视觉理解、智能体功能和长视频处理能力。
文本生成图像
Transformers

英语
Q
jarvisvasu
174
3
Internvl 2 5 HiCo R64
Apache-2.0
基于长且丰富的上下文(LRC)建模增强的视频多模态大语言模型,通过提升感知细粒度细节和捕捉长时态结构的能力改进现有MLLM
视频生成文本
Transformers

英语
I
OpenGVLab
252
2
Internvideo2 5 Chat 8B
Apache-2.0
InternVideo2.5是一款基于长且丰富上下文(LRC)建模增强的视频多模态大语言模型,构建于InternVL2.5之上,通过提升感知细粒度细节和捕捉长时序结构的能力,显著改进了现有MLLM模型。
视频生成文本
Transformers

英语
I
OpenGVLab
8,265
60
Llava Video 7B Qwen2 TPO
MIT
LLaVA-Video-7B-Qwen2-TPO是基于LLaVA-Video-7B-Qwen2进行时间偏好优化的视频理解模型,在多个基准测试中表现优异。
视频生成文本
Transformers

L
ruili0
490
1
Longva 7B TPO
MIT
LongVA-7B-TPO是基于LongVA-7B通过时序偏好优化而来的视频-文本模型,在长视频理解任务中表现优异。
视频生成文本
Transformers

L
ruili0
225
1
Apollo LMMs Apollo 7B T32
Apache-2.0
Apollo是一系列专注于视频理解的大型多模态模型,擅长处理长达一小时的视频内容,支持复杂视频问答和多轮对话。
视频生成文本
Transformers

英语
A
GoodiesHere
67
55
Apollo LMMs Apollo 1 5B T32
Apache-2.0
Apollo 是一系列专注于视频理解的大型多模态模型,擅长处理长视频内容理解、时序推理和复杂视频问答等任务。
视频生成文本
A
GoodiesHere
37
10
Longvu Llama3 2 1B
Apache-2.0
LongVU 是一种面向长视频语言理解的时空自适应压缩技术,旨在高效处理长视频内容,提升语言理解能力。
视频生成文本
L
Vision-CAIR
465
11
Oryx 1.5 7B
Apache-2.0
Oryx-1.5-7B是基于Qwen2.5语言模型开发的7B参数模型,支持32K tokens上下文窗口,专注于高效处理任意空间尺寸和时长的视觉输入。
文本生成视频
Safetensors
支持多种语言
O
THUdyh
133
7
Longvu Llama3 2 3B
Apache-2.0
LongVU是一种面向长视频语言理解的时空自适应压缩技术,旨在高效处理长视频内容。
视频生成文本
PyTorch
L
Vision-CAIR
1,079
7
Longvu Qwen2 7B
Apache-2.0
LongVU是基于Qwen2-7B的多模态模型,专注于长视频语言理解任务,采用时空自适应压缩技术。
视频生成文本
L
Vision-CAIR
230
69
Llava Video 7B Qwen2
Apache-2.0
LLaVA-视频模型是基于Qwen2语言模型的7B参数多模态模型,专注于视频理解任务,支持64帧视频输入。
视频生成文本
Transformers

英语
L
lmms-lab
34.28k
91
Kangaroo
Apache-2.0
袋鼠是一个专为长视频理解设计的强大多模态大语言模型,支持中英双语对话和长视频输入。
视频生成文本
Transformers

支持多种语言
K
KangarooGroup
163
12
Timesformer Large Finetuned K400
TimeSformer是一个基于空间-时间注意力机制的视频分类模型,专门用于视频理解任务。
视频处理
Transformers

T
fcakyon
254
0
Timesformer Base Finetuned K600
TimeSformer是基于空间-时间注意力机制的视频分类模型,在Kinetics-600数据集上进行了微调。
视频处理
Transformers

T
fcakyon
20
0
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers

支持多种语言
L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers

英语
C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统
中文
R
uer
2,694
98
AIbase是一个专注于MCP服务的平台,为AI开发者提供高质量的模型上下文协议服务,助力AI应用开发。
简体中文