Cosmos Reason1 7B GGUF
其他
Cosmos-Reason1是NVIDIA开发的物理AI模型,能够理解物理常识并通过长链思维推理生成具身决策自然语言。
文本生成视频
Transformers

英语
C
unsloth
6,690
1
Qwen2.5 VL 32B Instruct GGUF
Apache-2.0
Qwen2.5-VL-32B-Instruct 是一个强大的视觉语言模型,具备增强的数学和问题解决能力,适用于多模态任务。
图像生成文本
英语
Q
unsloth
464
1
Cosmos Reason1 7B
其他
Cosmos-Reason1是NVIDIA开发的物理AI模型,能够理解物理常识并通过长链思维推理生成具身决策。
文本生成文本
Transformers

英语
C
nvidia
18.56k
72
Anon
Apache-2.0
基于lmms-lab/llava-onevision-qwen2-7b-ov模型微调的版本,支持视频文本到文本的转换任务。
文本生成文本
英语
A
aiden200
361
0
Internvideo2 Stage2 6B
MIT
InternVideo2是一个多模态视频理解模型,具有6B参数规模,专注于视频内容分析和理解任务。
视频生成文本
I
OpenGVLab
542
0
Qwen2.5 VL 72B Instruct Pointer AWQ
其他
Qwen2.5-VL是Qwen家族的最新视觉语言模型,具备增强的视觉理解、代理能力和结构化输出生成功能。
图像生成文本
Transformers

英语
Q
PointerHQ
5,592
8
VL3 SigLIP NaViT
Apache-2.0
VideoLLaMA3的视觉编码器,采用任意分辨率视觉标记化(AVT)技术,动态处理不同分辨率的图像和视频。
文本生成图像
Transformers

英语
V
DAMO-NLP-SG
25.55k
8
Videollama2.1 7B 16F Base
Apache-2.0
VideoLLaMA2.1是基于VideoLLaMA2的升级版本,专注于提升视频大语言模型中的时空建模与音频理解能力。
视频生成文本
Transformers

英语
V
DAMO-NLP-SG
179
1
Videollama2.1 7B 16F
Apache-2.0
VideoLLaMA 2是一个多模态大语言模型,专注于视频理解,具备时空建模和音频理解能力。
文本生成视频
Transformers

英语
V
DAMO-NLP-SG
2,813
10
Videollama2 72B
Apache-2.0
VideoLLaMA 2是一个多模态大语言模型,专注于视频理解和时空建模,支持视频和图像输入,能够进行视觉问答和对话任务。
文本生成视频
Transformers

英语
V
DAMO-NLP-SG
26
10
Tarsier 34b
Apache-2.0
Tarsier-34b 是一个开源的大规模视频语言模型,专注于生成高质量的视频描述,并在多个公开基准测试中取得领先成绩。
视频生成文本
Transformers

T
omni-research
103
17
Videollama2 8x7B Base
Apache-2.0
VideoLLaMA 2是新一代视频大语言模型,专注于提升时空建模能力和音频理解能力,支持多模态视频问答和描述任务。
文本生成视频
Transformers

英语
V
DAMO-NLP-SG
20
2
Videollama2 8x7B
Apache-2.0
VideoLLaMA 2是一个多模态大语言模型,专注于视频理解和音频处理,能够处理视频和图像输入并生成自然语言响应。
文本生成视频
Transformers

英语
V
DAMO-NLP-SG
21
3
Llava NeXT Video 34B Hf
LLaVA-NeXT-Video是一个开源多模态聊天机器人,通过视频和图像数据混合训练,具备优秀的视频理解能力。
文本生成视频
Transformers

英语
L
llava-hf
2,232
7
Llava NeXT Video 7B DPO Hf
LLaVA-NeXT-Video是一个开源多模态聊天机器人,通过视频和图像数据混合训练优化,具备优秀的视频理解能力。
视频生成文本
Transformers

英语
L
llava-hf
12.61k
9
Llava NeXT Video 7B Hf
LLaVA-NeXT-Video是一个开源多模态聊天机器人,通过视频和图像数据混合训练获得优秀的视频理解能力,在VideoMME基准上达到开源模型SOTA水平。
文本生成视频
Transformers

英语
L
llava-hf
65.95k
88
Sharegpt4video 8b
Apache-2.0
ShareGPT4Video-8B 是一个开源视频聊天机器人,通过在开源视频指令数据上进行微调训练而成。
文本生成视频
Transformers

S
Lin-Chen
1,973
44
Xclip Large Patch14 Kinetics 600
MIT
X-CLIP是CLIP的扩展版本,用于通用视频语言理解,通过对比学习在视频和文本对上训练。
文本生成视频
Transformers

英语
X
microsoft
124
5
Xclip Base Patch16 Kinetics 600 16 Frames
MIT
X-CLIP是对CLIP的扩展,用于通用视频语言理解,支持零样本、少样本或全监督的视频分类以及视频-文本检索等任务。
文本生成视频
Transformers

英语
X
microsoft
393
2
Xclip Base Patch16 Kinetics 600
MIT
X-CLIP是CLIP的扩展版本,用于通用的视频语言理解,通过对比学习在(视频,文本)对上训练。
文本生成视频
Transformers

英语
X
microsoft
294
1
Xclip Large Patch14
MIT
X-CLIP是对CLIP的扩展,用于通用视频-语言理解,通过对比学习在(视频,文本)对上训练。
文本生成视频
Transformers

英语
X
microsoft
1,698
11
Xclip Base Patch16 16 Frames
MIT
X-CLIP是对CLIP的极简扩展,用于通用视频-语言理解,通过对比学习在(视频,文本)对上训练。
文本生成视频
Transformers

英语
X
microsoft
1,034
0
Xclip Base Patch32 16 Frames
MIT
X-CLIP是CLIP的扩展版本,用于通用视频语言理解,通过对比学习在视频和文本对上训练,适用于视频分类和视频-文本检索等任务。
文本生成视频
Transformers

英语
X
microsoft
901
4
Xclip Base Patch32
MIT
X-CLIP是CLIP的扩展版本,用于通用视频语言理解,通过对比学习在(视频,文本)对上训练,适用于视频分类和视频-文本检索等任务。
文本生成视频
Transformers

英语
X
microsoft
309.80k
84
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers

支持多种语言
L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers

英语
C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统
中文
R
uer
2,694
98
AIbase是一个专注于MCP服务的平台,为AI开发者提供高质量的模型上下文协议服务,助力AI应用开发。
简体中文