L

Llavaction 7B

由 MLAdaptiveIntelligence 开发
LLaVAction是一个面向动作识别的多模态大语言模型评估与训练框架,基于Qwen2语言模型架构,支持第一人称视角视频理解。
下载量 149
发布时间 : 3/24/2025
模型介绍
内容详情
替代品

模型简介

LLaVAction-7B模型专注于从第一人称视角视频理解人类动作,支持处理最多64帧视频输入,在多个视频理解基准测试上表现优异。

模型特点

第一人称视角理解
专门针对第一人称视角视频优化,能准确理解自我中心视角下的动作和交互
长视频处理能力
支持处理最多64帧视频输入,能有效理解长视频内容
多模态融合
结合视觉和语言信息,实现高质量的视频内容理解和问答
高性能基准测试表现
在多个视频理解基准测试上达到领先水平,如EgoSchema(59%)、MVBench(61.1%)等

模型能力

视频内容理解
动作识别
多模态问答
长视频分析
第一人称视角理解

使用案例

智能家居
厨房活动分析
分析用户在厨房中的烹饪活动
能准确识别切菜、烹饪等动作
行为研究
日常活动分析
研究人类日常活动模式
可识别和分类各种日常活动
辅助技术
动作指导
为特殊需求用户提供动作指导
能理解并指导用户完成特定动作