SmolVLM2-2.2B-Instruct-4bit开源视觉语言模型 - 高效处理视频文本到文本任务

Smolvlm2 2.2B Instruct 4bit

由 smdesai 开发

SmolVLM2-2.2B-Instruct-4bit 是一个基于 MLX 格式转换的视觉语言模型，专注于视频文本到文本的任务。

下载量 24

发布时间 : 2/20/2025

模型简介

该模型是从 HuggingFaceTB/SmolVLM2-2.2B-Instruct 转换而来，支持视频和文本的多模态交互，适用于生成视频描述等任务。

多模态支持

支持视频和文本的交互，能够处理视频内容并生成相关文本描述。

高效推理

使用 4bit 量化技术，降低模型资源需求，提升推理效率。

广泛的数据集训练

基于多个高质量数据集训练，包括 Docmatix、LLaVA-OneVision-Data 等。

视频内容理解

文本生成

多模态交互

视频内容分析

视频描述生成

根据视频内容生成详细的文本描述。

生成准确且连贯的视频描述文本。

教育

视频辅助学习

为教育视频生成辅助文本，帮助学习者更好地理解内容。

提升学习体验和理解效果。

属性	详情
库名称	transformers
模型类型	video - text - to - text
基础模型	HuggingFaceTB/SmolVLM - Instruct
训练数据	HuggingFaceM4/the_cauldron、HuggingFaceM4/Docmatix、lmms - lab/LLaVA - OneVision - Data、lmms - lab/M4 - Instruct - Data、HuggingFaceFV/finevideo、MAmmoTH - VL/MAmmoTH - VL - Instruct - 12M、lmms - lab/LLaVA - Video - 178K、orrzohar/Video - STaR、Mutonix/Vript、TIGER - Lab/VISTA - 400K、Enxin/MovieChat - 1K_train、ShareGPT4Video/ShareGPT4Video
标签	mlx