A

Apollo LMMs Apollo 1 5B T32

由 GoodiesHere 开发
Apollo 是一系列专注于视频理解的大型多模态模型,擅长处理长视频内容理解、时序推理和复杂视频问答等任务。
下载量 37
发布时间 : 12/18/2024
模型介绍
内容详情
替代品

模型简介

Apollo 模型通过战略设计平衡速度与精度,能够处理长达一小时的视频内容,并在小参数规模下实现与大模型的竞争性能。

模型特点

可扩展一致性
在小模型和数据集上验证的设计方案能有效迁移至更大规模,降低计算与实验成本
高效视频采样
fps采样与先进token重采样策略(如Perceiver)带来更强时序感知
编码器协同
SigLIP-SO400M(图像)与InternVideo2(视频)组合形成鲁棒表征,在时序任务上超越单一编码器
ApolloBench
精简评估基准(提速41倍),专注真实视频理解能力评估

模型能力

长视频内容理解
时序推理
复杂视频问答
基于视频内容的多轮对话

使用案例

视频分析
视频内容描述
对长达一小时的视频内容进行详细描述
能够准确捕捉视频中的关键内容和时序关系
视频问答
回答关于视频内容的复杂问题
在复杂视频问答任务上表现优异