视频理解

# 视频理解

Vjepa2 Vitl Fpc64 256

V-JEPA 2是Meta旗下FAIR团队开发的前沿视频理解模型，扩展了VJEPA的预训练目标，具备业界领先的视频理解能力。

VLM2Vec-V2 是一个用于大规模多模态嵌入任务的模型，通过训练视觉语言模型，为视频、图像和视觉文档等多模态数据提供更强大的嵌入能力。

多模态融合

Transformers 英语

Test With Sdfvd

基于MCG-NJU/videomae-base微调的视频理解模型，在评估集上表现一般（准确率50%）

Internvl3 8B Hf

InternVL3 是一个先进的多模态大语言模型系列，具备强大的多模态感知和推理能力，支持图像、视频和文本输入。

图像生成文本

Transformers 其他

Internvl3 2B Hf

InternVL3-2B是基于Hugging Face Transformers库实现的多模态大语言模型，在图像、视频和文本处理等多模态任务上表现出色，支持多种输入方式和高效的批量推理。

图像生成文本

Transformers 其他

Internvl3 1B Hf

InternVL3 是一个先进的多模态大语言模型系列，展示了卓越的多模态感知和推理能力，支持图像、视频和文本输入。

图像生成文本

Transformers 其他

Datatrain Videomae Base Finetuned Lr1e 07 Poly3

基于MCG-NJU/videomae-base微调的视频理解模型，在未知数据集上训练，准确率为11.1%

Videomae Base Finetuned 1e 08 Bs4 Ep2

基于MCG-NJU/videomae-base微调的视频理解模型，在未知数据集上进行了训练

Qwen2.5 Omni 7B GPTQ 4bit

基于Qwen2.5-Omni-7B模型的4比特GPTQ量化版本，支持多语言和多模态任务。

多模态融合

Safetensors 支持多种语言

Slowfast Video Mllm Qwen2 7b Convnext 576 Frame96 S1t6

采用创新的慢快架构来平衡视频理解中的时间分辨率和空间细节，克服了传统大语言模型的序列长度限制。

视频生成文本

Videollama2.1 7B AV CoT

VideoLLaMA2.1-7B-AV是一款多模态大语言模型，专注于视听问答任务，能够同时处理视频和音频输入，提供高质量的问答和描述生成能力。

视频生成文本

Transformers 英语

VideoMind是一个多模态智能体框架，通过模拟人类思维的处理流程（如任务拆解、时刻定位与验证和答案合成）来增强视频推理能力。

视频生成文本

Slowfast Video Mllm Qwen2 7b Convnext 576 Frame64 S1t4

采用慢-快架构的视频多模态大语言模型，平衡时间分辨率和空间细节，支持64帧视频理解

视频生成文本

Tinyllava Video Qwen2.5 3B Group 16 512

TinyLLaVA-Video是基于Qwen2.5-3B和siglip-so400m-patch14-384构建的视频理解模型，采用分组重采样器处理视频帧

视频生成文本

Internvl 2 5 HiCo R16

InternVideo2.5 是一款基于长且丰富的上下文（LRC）建模增强的视频多模态大语言模型（MLLM），构建于 InternVL2.5 之上。

文本生成视频

Transformers 英语

Llava NeXT Video 7B Hf

LLaVA-NeXT-Video-7B-hf 是一个基于视频的多模态模型，能够处理视频和文本输入，生成文本输出。

视频生成文本

Safetensors 英语

Videomae Base Finetuned Signlanguage Last 3

基于MCG-NJU/videomae-base微调的视频理解模型，专注于手语识别任务

Internvl2 5 4B AWQ

InternVL2_5-4B-AWQ 是使用 autoawq 对 InternVL2_5-4B 进行 AWQ 量化的版本，支持多语言和多模态任务。

图像生成文本

Transformers 其他

Magma是一个多模态AI智能体基础模型，能够处理图像和文本输入并生成文本输出，具备虚拟与现实环境中的复杂交互能力。

图像生成文本

Smolvlm2 500M Video Instruct

轻量级多模态模型，专为分析视频内容设计，可处理视频、图像和文本输入以生成文本输出。

图像生成文本

Transformers 英语

Smolvlm2 2.2B Instruct

SmolVLM2-2.2B 是一款轻量级多模态模型，专为分析视频内容而设计，可处理视频、图像和文本输入并生成文本输出。

图像生成文本

Transformers 英语

Fluxi AI Small Vision

Fluxi AI 是一款基于 Qwen2-VL-7B-Instruct 的多模态智能助手，具备文本、图像和视频处理能力，特别优化了葡萄牙语支持。

图像生成文本

Transformers 其他

Internlm Xcomposer2d5 7b Chat

InternLM-XComposer2.5-Chat是基于InternLM-XComposer2.5-7B训练的对话模型，在多模态指令跟随和开放式对话能力方面有显著提升。

文本生成图像

Xgen Mm Vid Phi3 Mini R V1.5 32tokens 8frames

xGen-MM-Vid (BLIP-3-Video) 是一款高效紧凑的视觉语言模型，配备显式的时间编码器，专门用于理解视频内容。

视频生成文本

Safetensors 英语

Eagle2是NVIDIA推出的高性能视觉语言模型家族，专注于通过数据策略和训练方案提升开源视觉语言模型的性能。Eagle2-2B是该系列中的轻量级模型，在保持强劲性能的同时实现卓越效率和速度。

文本生成图像

Transformers 其他

Eagle2-9B是NVIDIA发布的最新视觉语言模型(VLM)，在性能和推理速度之间实现了完美平衡。它基于Qwen2.5-7B-Instruct语言模型和Siglip+ConvNext视觉模型构建，支持多语言和多模态任务。

图像生成文本

Transformers 其他

Llava Mini Llama 3.1 8b

LLaVA-Mini是一款高效的多模态大模型，通过仅使用1个视觉令牌表示图像，显著提升了图像和视频理解的效率。

图像生成文本

Xgen Mm Vid Phi3 Mini R V1.5 128tokens 8frames

xGen-MM-Vid (BLIP-3-Video) 是一款高效的紧凑型视觉语言模型，配备了显式的时间编码器，专为理解视频内容而设计。

视频生成文本

Safetensors 英语

Mplug Owl3 7B 240728

mPLUG-Owl3 是一款前沿的多模态大语言模型，专为解决长图像序列理解难题而设计，支持处理单图、多图和视频任务。

文本生成图像英语

Minicpm V 2 6 Int4

MiniCPM-V 2.6是一个多模态视觉语言模型，支持图像文本到文本的转换，具备多语言处理能力。

图像生成文本

Transformers 其他

Llava NeXT Video 7B DPO

LLaVA-Next-Video 是一个开源的多模态对话模型，通过对大语言模型进行多模态指令跟随数据的微调训练而成，支持视频和文本的多模态交互。

文本生成视频

Llava NeXT Video 7B

LLaVA-Next-Video 是一款开源的多模态对话机器人，通过大语言模型微调训练而成，支持视频和文本的多模态交互。

文本生成视频

Model Timesformer Subset 02

基于TimeSformer架构的视频理解模型，在未知数据集上微调，准确率达88.52%

Videomae Base Finetuned Subset

基于MCG-NJU/videomae-base模型在未知数据集上微调的视频理解模型，准确率达67.13%

MMICL Instructblip T5 Xxl

MMICL是一个结合了blip2/instructblip的多模态视觉语言模型，能够分析和理解多张图像并遵循指令。

图像生成文本

Transformers 英语

Videomae Base Ipm All Videos

基于VideoMAE基础模型在未知视频数据集上微调的视觉模型，主要用于视频理解任务，在评估集上达到85.59%的准确率。

Videomae Base Finetuned

基于MCG-NJU/videomae-base在未知数据集上微调的视频理解模型，F1分数达到0.7147

Videomae Base Finetuned

基于VideoMAE基础模型在未知数据集上微调的视频理解模型，在评估集上达到86.41%的准确率

ViViT是对视觉变换器(ViT)的扩展，适用于视频处理，主要用于视频分类等下游任务。

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24