多模态视频理解

# 多模态视频理解

Cosmos Reason1 7B GGUF

Cosmos-Reason1是NVIDIA开发的物理AI模型，能够理解物理常识并通过长链思维推理生成具身决策自然语言。

文本生成视频

Transformers 英语

Qwen2.5 VL 32B Instruct GGUF

Qwen2.5-VL-32B-Instruct 是一个强大的视觉语言模型，具备增强的数学和问题解决能力，适用于多模态任务。

图像生成文本英语

Cosmos Reason1 7B

Cosmos-Reason1是NVIDIA开发的物理AI模型，能够理解物理常识并通过长链思维推理生成具身决策。

文本生成文本

Transformers 英语

基于lmms-lab/llava-onevision-qwen2-7b-ov模型微调的版本，支持视频文本到文本的转换任务。

文本生成文本英语

Internvideo2 Stage2 6B

InternVideo2是一个多模态视频理解模型，具有6B参数规模，专注于视频内容分析和理解任务。

视频生成文本

Qwen2.5 VL 72B Instruct Pointer AWQ

Qwen2.5-VL是Qwen家族的最新视觉语言模型，具备增强的视觉理解、代理能力和结构化输出生成功能。

图像生成文本

Transformers 英语

VL3 SigLIP NaViT

VideoLLaMA3的视觉编码器，采用任意分辨率视觉标记化(AVT)技术，动态处理不同分辨率的图像和视频。

文本生成图像

Transformers 英语

Videollama2.1 7B 16F Base

VideoLLaMA2.1是基于VideoLLaMA2的升级版本，专注于提升视频大语言模型中的时空建模与音频理解能力。

视频生成文本

Transformers 英语

Videollama2.1 7B 16F

VideoLLaMA 2是一个多模态大语言模型，专注于视频理解，具备时空建模和音频理解能力。

文本生成视频

Transformers 英语

Videollama2 72B

VideoLLaMA 2是一个多模态大语言模型，专注于视频理解和时空建模，支持视频和图像输入，能够进行视觉问答和对话任务。

文本生成视频

Transformers 英语

Tarsier-34b 是一个开源的大规模视频语言模型，专注于生成高质量的视频描述，并在多个公开基准测试中取得领先成绩。

视频生成文本

Videollama2 8x7B Base

VideoLLaMA 2是新一代视频大语言模型，专注于提升时空建模能力和音频理解能力，支持多模态视频问答和描述任务。

文本生成视频

Transformers 英语

Videollama2 8x7B

VideoLLaMA 2是一个多模态大语言模型，专注于视频理解和音频处理，能够处理视频和图像输入并生成自然语言响应。

文本生成视频

Transformers 英语

Llava NeXT Video 34B Hf

LLaVA-NeXT-Video是一个开源多模态聊天机器人，通过视频和图像数据混合训练，具备优秀的视频理解能力。

文本生成视频

Transformers 英语

Llava NeXT Video 7B DPO Hf

LLaVA-NeXT-Video是一个开源多模态聊天机器人，通过视频和图像数据混合训练优化，具备优秀的视频理解能力。

视频生成文本

Transformers 英语

Llava NeXT Video 7B Hf

LLaVA-NeXT-Video是一个开源多模态聊天机器人，通过视频和图像数据混合训练获得优秀的视频理解能力，在VideoMME基准上达到开源模型SOTA水平。

文本生成视频

Transformers 英语

Sharegpt4video 8b

ShareGPT4Video-8B 是一个开源视频聊天机器人，通过在开源视频指令数据上进行微调训练而成。

文本生成视频

Video LLaVA 7B Hf

Video-LLaVA是一个开源的多模态模型，通过在多模态指令跟随数据上微调大语言模型进行训练，能够生成交错的图像和视频。

文本生成视频

Xclip Large Patch14 Kinetics 600

X-CLIP是CLIP的扩展版本，用于通用视频语言理解，通过对比学习在视频和文本对上训练。

文本生成视频

Transformers 英语

Xclip Base Patch16 Kinetics 600 16 Frames

X-CLIP是对CLIP的扩展，用于通用视频语言理解，支持零样本、少样本或全监督的视频分类以及视频-文本检索等任务。

文本生成视频

Transformers 英语

Xclip Base Patch16 Kinetics 600

X-CLIP是CLIP的扩展版本，用于通用的视频语言理解，通过对比学习在（视频，文本）对上训练。

文本生成视频

Transformers 英语

Xclip Large Patch14

X-CLIP是对CLIP的扩展，用于通用视频-语言理解，通过对比学习在（视频，文本）对上训练。

文本生成视频

Transformers 英语

Xclip Base Patch16 16 Frames

X-CLIP是对CLIP的极简扩展，用于通用视频-语言理解，通过对比学习在（视频，文本）对上训练。

文本生成视频

Transformers 英语

Xclip Base Patch32 16 Frames

X-CLIP是CLIP的扩展版本，用于通用视频语言理解，通过对比学习在视频和文本对上训练，适用于视频分类和视频-文本检索等任务。

文本生成视频

Transformers 英语

Xclip Base Patch32

X-CLIP是CLIP的扩展版本，用于通用视频语言理解，通过对比学习在(视频，文本)对上训练，适用于视频分类和视频-文本检索等任务。

文本生成视频

Transformers 英语

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24