S

Smolvlm2 2.2B Instruct

由 HuggingFaceTB 开发
SmolVLM2-2.2B 是一款轻量级多模态模型,专为分析视频内容而设计,可处理视频、图像和文本输入并生成文本输出。
下载量 62.56k
发布时间 : 2/8/2025
模型介绍
内容详情
替代品

模型简介

该模型能够回答关于媒体文件的问题、比较视觉内容或从图像中转录文本,适合计算资源有限的设备端应用。

模型特点

轻量高效
仅需5.2GB GPU显存即可进行视频推理,适合资源有限的环境
多模态支持
可同时处理视频、图像和文本输入,支持多种媒体交错排列
设备端适用
小巧的体积使其特别适合在计算资源有限的设备上运行
强任务表现
尽管体积小,但在复杂多模态任务上表现强劲

模型能力

视觉问答
视频内容描述
图像内容描述
多图像比较分析
文本转录
基于视觉内容的故事讲述

使用案例

内容分析
视频亮点生成
分析视频内容并生成关键事件描述
可用于自动生成视频摘要
视觉问答
回答关于图像或视频内容的特定问题
在Mathvista基准测试中达到51.5分
文档处理
文本转录
从图像中提取和转录文本内容
在OCRBench基准测试中达到72.9分