SmolVLM2-500M-Video-Instruct-mlx-8bit-skip-vision开源模型

Smolvlm2 500M Video Instruct Mlx 8bit Skip Vision

由 mlx-community 开发

基于SmolVLM2-500M-Video-Instruct转换的MLX格式模型，支持视频文本转文本任务

下载量 51

发布时间 : 2/17/2025

模型简介

该模型是一个轻量级视觉语言模型，专注于视频内容理解和指令跟随，能够处理视频与文本的交互任务

轻量级设计

仅500M参数规模，适合资源有限的环境部署

视频理解能力

专门针对视频内容优化的视觉语言模型

指令跟随

能够理解和执行基于视频内容的复杂指令

MLX优化

转换为MLX格式，可在Apple Silicon设备上高效运行

视频内容理解

文本生成

指令跟随

多模态推理

视频内容分析

视频内容描述

根据视频内容生成详细描述

视频问答

回答关于视频内容的特定问题

教育

教学视频辅助

根据教学视频生成学习要点和总结

属性	详情
库名称	transformers
数据集	HuggingFaceM4/the_cauldron、HuggingFaceM4/Docmatix
任务类型	视频文本到文本
基础模型	HuggingFaceTB/SmolLM2 - 360M - Instruct、google/siglip - base - patch16 - 512、HuggingFaceTB/SmolVLM2 - 500M - Video - Instruct
标签	mlx