SmolVLM2-2.2B-Instruct开源视觉语言模型 - 免费部署助力英语视频文本转文本

Smolvlm2 2.2B Instruct GGUF

由 mradermacher 开发

SmolVLM2-2.2B-Instruct 是一个2.2B参数量的视觉语言模型，专注于视频文本转文本任务，支持英语。

下载量 235

发布时间 : 4/25/2025

模型简介

该模型是一个量化版本的视觉语言模型，基于HuggingFaceTB/SmolVLM2-2.2B-Instruct，专注于处理视频相关的文本生成任务。

多数据集训练

模型在多个高质量数据集上进行训练，包括Docmatix、LLaVA-OneVision-Data等，增强了其泛化能力。

量化版本多样

提供了多种量化版本（如Q2_K、Q3_K_S等），用户可以根据需求选择适合的版本，平衡速度和质量。

高效推理

量化版本显著减小了模型大小，提高了推理速度，适合资源有限的环境。

视频文本生成

多模态理解

指令跟随

视频内容分析

视频字幕生成

根据视频内容生成描述性字幕。

视频问答

回答关于视频内容的特定问题。

教育

教育视频摘要

生成教育视频的简洁摘要，帮助学生快速理解内容。

属性	详情
基础模型	HuggingFaceTB/SmolVLM2-2.2B-Instruct
训练数据集	HuggingFaceM4/the_cauldron、HuggingFaceM4/Docmatix、lmms-lab/LLaVA-OneVision-Data等
语言	英语
库名称	transformers
许可证	apache-2.0
量化者	mradermacher
标签	video-text-to-text

链接	类型	大小/GB	备注
GGUF	Q2_K	0.8
GGUF	Q3_K_S	0.9
GGUF	Q3_K_M	1.0	质量较低
GGUF	Q3_K_L	1.1
GGUF	IQ4_XS	1.1
GGUF	Q4_K_S	1.2	快速，推荐
GGUF	Q4_K_M	1.2	快速，推荐
GGUF	Q5_K_S	1.4
GGUF	Q5_K_M	1.4
GGUF	Q6_K	1.6	质量非常好
GGUF	Q8_0	2.0	快速，质量最佳
GGUF	f16	3.7	16 bpw，过度配置