S

Smolvlm2 256M Video Instruct

由 HuggingFaceTB 开发
SmolVLM2-256M-Video是一款轻量级多模态模型,专为分析视频内容而设计,能够处理视频、图像和文本输入并生成文本输出。
下载量 22.16k
发布时间 : 2/11/2025
模型介绍
内容详情
替代品

模型简介

该模型能够处理视频、图像和文本输入,生成文本输出,适用于回答关于媒体文件的问题、比较视觉内容或从图像中转录文本等任务。尽管体积小巧,进行视频推理时仅需1.38GB的GPU内存,适合设备端应用。

模型特点

轻量高效
模型体积小巧,进行视频推理时仅需1.38GB的GPU内存,适合计算资源有限的设备端应用。
多模态处理
能够同时处理视频、图像和文本输入,并生成文本输出。
设备端适用
特别适合需要特定领域微调且计算资源可能有限的设备端应用。

模型能力

视频内容分析
图像内容分析
文本生成
视觉问答
字幕生成
基于视觉内容的故事讲述

使用案例

媒体分析
视频描述生成
分析视频内容并生成详细的文字描述。
图像问答
回答关于图像内容的特定问题。
内容创作
视觉故事讲述
基于提供的图像或视频内容生成连贯的故事。