长视频理解

# 长视频理解

Qwen2.5 VL 7B Instruct GGUF

Qwen2.5-VL是Qwen家族最新推出的视觉语言模型，具备强大的视觉理解和多模态处理能力，支持图像、视频分析和结构化输出。

图像生成文本英语

Docscopeocr 7B 050425 Exp

docscopeOCR-7B-050425-exp 是基于 Qwen/Qwen2.5-VL-7B-Instruct 微调的模型，专注于文档级 OCR、长上下文视觉语言理解和数学 LaTeX 格式的精确图像到文本转换。

图像生成文本

Transformers 支持多种语言

Eagle 2.5是一款前沿的视觉语言模型（VLM），专为长上下文多模态学习设计，支持处理长达512帧的视频序列和高分辨率图像。

文本生成图像

Transformers 其他

Llavaction 0.5B

LLaVAction是一个用于动作识别的多模态大语言模型，基于Qwen2语言模型，在EPIC-KITCHENS-100-MQA数据集上训练而成。

视频生成文本

Transformers 英语

MLAdaptiveIntelligence

Vamba Qwen2 VL 7B

Vamba是一种混合Mamba-Transformer架构，通过交叉注意力层与Mamba-2模块实现高效的长视频理解。

视频生成文本

Qwen2.5 VL 3B Instruct 4bit

Qwen2.5-VL是Qwen家族的最新视觉语言模型，具备增强的视觉理解、智能体功能和长视频处理能力。

文本生成图像

Transformers 英语

Internvl 2 5 HiCo R64

基于长且丰富的上下文（LRC）建模增强的视频多模态大语言模型，通过提升感知细粒度细节和捕捉长时态结构的能力改进现有MLLM

视频生成文本

Transformers 英语

Internvideo2 5 Chat 8B

InternVideo2.5是一款基于长且丰富上下文(LRC)建模增强的视频多模态大语言模型，构建于InternVL2.5之上，通过提升感知细粒度细节和捕捉长时序结构的能力，显著改进了现有MLLM模型。

视频生成文本

Transformers 英语

Llava Video 7B Qwen2 TPO

LLaVA-Video-7B-Qwen2-TPO是基于LLaVA-Video-7B-Qwen2进行时间偏好优化的视频理解模型，在多个基准测试中表现优异。

视频生成文本

LongVA-7B-TPO是基于LongVA-7B通过时序偏好优化而来的视频-文本模型，在长视频理解任务中表现优异。

视频生成文本

Apollo LMMs Apollo 7B T32

Apollo是一系列专注于视频理解的大型多模态模型，擅长处理长达一小时的视频内容，支持复杂视频问答和多轮对话。

视频生成文本

Transformers 英语

Apollo LMMs Apollo 1 5B T32

Apollo 是一系列专注于视频理解的大型多模态模型，擅长处理长视频内容理解、时序推理和复杂视频问答等任务。

视频生成文本

Longvu Llama3 2 1B

LongVU 是一种面向长视频语言理解的时空自适应压缩技术，旨在高效处理长视频内容，提升语言理解能力。

视频生成文本

Oryx-1.5-7B是基于Qwen2.5语言模型开发的7B参数模型，支持32K tokens上下文窗口，专注于高效处理任意空间尺寸和时长的视觉输入。

文本生成视频

Safetensors 支持多种语言

Longvu Llama3 2 3B

LongVU是一种面向长视频语言理解的时空自适应压缩技术，旨在高效处理长视频内容。

视频生成文本

Longvu Qwen2 7B

LongVU是基于Qwen2-7B的多模态模型，专注于长视频语言理解任务，采用时空自适应压缩技术。

视频生成文本

Llava Video 7B Qwen2

LLaVA-视频模型是基于Qwen2语言模型的7B参数多模态模型，专注于视频理解任务，支持64帧视频输入。

视频生成文本

Transformers 英语

袋鼠是一个专为长视频理解设计的强大多模态大语言模型，支持中英双语对话和长视频输入。

视频生成文本

Transformers 支持多种语言

Timesformer Large Finetuned K400

TimeSformer是一个基于空间-时间注意力机制的视频分类模型，专门用于视频理解任务。

Timesformer Base Finetuned K600

TimeSformer是基于空间-时间注意力机制的视频分类模型，在Kinetics-600数据集上进行了微调。

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24