L

Llavaction 0.5B

由 MLAdaptiveIntelligence 开发
LLaVAction是一个用于动作识别的多模态大语言模型,基于Qwen2语言模型,在EPIC-KITCHENS-100-MQA数据集上训练而成。
下载量 215
发布时间 : 3/24/2025
模型介绍
内容详情
替代品

模型简介

该模型专注于视频动作识别任务,能够理解第一人称视角视频中的动作内容,适用于与EPIC-KITCHENS-100类似的视频内容分析。

模型特点

多模态理解能力
结合视觉和语言信息,能够理解视频内容并生成相关描述
第一人称视角动作识别
专门针对第一人称视角视频中的手部与物体交互动作进行识别
大上下文窗口
支持32K令牌的上下文窗口,适合处理长视频内容

模型能力

视频内容理解
动作识别
多模态问答
视频帧分析
时间信息处理

使用案例

智能家居
厨房活动分析
识别用户在厨房中的各种操作活动
可准确识别切菜、烹饪等常见厨房动作
行为研究
日常活动分析
研究人类日常活动模式和行为习惯