SmolVLM2-256M-Video-Instruct-mlx开源模型 - 支持视频理解与指令跟随任务

Smolvlm2 256M Video Instruct Mlx

由 mlx-community 开发

这是一个基于MLX框架转换的视频文本到文本模型，适用于视频理解和指令跟随任务。

下载量 591

发布时间 : 2/17/2025

模型简介

该模型是从HuggingFaceTB/SmolVLM2-256M-Video-Instruct转换而来，专门用于处理视频和文本之间的交互任务，能够理解视频内容并生成相应的文本描述或回答相关问题。

视频理解能力

能够理解视频内容并生成相应的文本描述

指令跟随

可以根据用户提供的指令生成相关的文本响应

轻量级模型

256M参数的规模使其在保持性能的同时具有较高的效率

视频内容理解

文本生成

指令跟随

多模态处理

视频分析

视频内容描述

根据视频内容生成详细的文本描述

准确描述视频中的场景和动作

视频问答

回答关于视频内容的特定问题

提供与视频内容相关的准确答案

教育

教学视频辅助

为教学视频生成字幕或摘要

帮助学生更好地理解视频内容

属性	详情
模型类型	视频文本到文本转换模型
训练数据	HuggingFaceM4/the_cauldron、HuggingFaceM4/Docmatix
基础模型	HuggingFaceTB/SmolLM2 - 360M - Instruct、google/siglip - base - patch16 - 512、HuggingFaceTB/SmolVLM2 - 256M - Video - Instruct
标签	mlx