SmolVLM2-500M-Video-Instruct-mlx开源视频文本转文本模型

Smolvlm2 500M Video Instruct Mlx

由 mlx-community 开发

这是一个基于MLX格式的视频文本转文本模型，由HuggingFaceTB开发，支持英文语言处理。

下载量 2,491

发布时间 : 2/12/2025

模型简介

该模型是从HuggingFaceTB/SmolVLM2-500M-Video-Instruct转换而来的MLX格式模型，主要用于视频内容理解和文本生成任务。

视频内容理解

能够理解视频内容并生成相关文本描述

MLX格式优化

专为MLX框架优化的模型版本，提高运行效率

多模态处理

支持视频和文本的多模态输入处理

视频内容描述

视频问答

多模态理解

文本生成

视频内容分析

视频内容描述

为视频内容生成文字描述

可生成准确描述视频内容的文本

视频问答

回答关于视频内容的问题

能基于视频内容提供准确的回答

教育

教育视频分析

分析教育视频内容并生成摘要

帮助学生快速理解视频要点

属性	详情
库名称	transformers
数据集	HuggingFaceM4/the_cauldron、HuggingFaceM4/Docmatix
任务类型	视频文本到文本
语言	英语
基础模型	HuggingFaceTB/SmolLM2 - 360M - Instruct、google/siglip - base - patch16 - 512、HuggingFaceTB/SmolVLM2 - 500M - Video - Instruct
标签	mlx