轻量级多模态

# 轻量级多模态

基于google/gemma-3-4b-it模型训练的多模态模型，专注于数学、编程、科学和解谜领域的高质量数据处理。

图像生成文本

Transformers 英语

Smolvlm2 256M Video Instruct Mlx

这是一个基于MLX框架转换的视频文本到文本模型，适用于视频理解和指令跟随任务。

图像生成文本

Transformers 英语

Smolvlm2 256M Video Instruct

SmolVLM2-256M-Video是一款轻量级多模态模型，专为分析视频内容而设计，能够处理视频、图像和文本输入并生成文本输出。

图像生成文本

Transformers 英语

nanoLLaVA-1.5是一款参数规模在10亿以下的视觉语言模型，专为边缘设备设计，小巧但功能强大。

图像生成文本

Transformers 英语

Imp V1.5 4B Phi3

Imp-v1.5-4B-Phi3是一个高性能轻量级多模态大模型，仅含40亿参数，基于Phi-3框架和SigLIP视觉编码器构建。

文本生成图像

Moondream2 Llamafile

moondream2是一款小型视觉语言模型，专为在边缘设备上高效运行而设计，通过llamafile格式提供便捷部署。

图像生成文本

nanoLLaVA是一款1B参数的视觉语言模型，专为边缘设备设计，具有高效运行的特点。

文本生成图像

Transformers 英语

Uform Gen2 Qwen 500m

UForm-Gen是一款小型生成式视觉语言模型，主要用于图像描述生成和视觉问答。

图像生成文本

Transformers 英语

16亿参数的多模态模型，融合SigLIP与Phi-1.5技术架构，支持图像理解和问答任务

图像生成文本

Transformers 英语

Tiny Llava V1 Hf

TinyLLaVA是一个小型大规模多模态模型框架，专注于视觉语言任务，参数规模小但性能优异。

图像生成文本

Transformers 支持多种语言

UForm-Gen-Chat是UForm-Gen的多模态对话精调版本，主要用于图像描述生成和视觉问答任务。

图像生成文本

Transformers 英语

UForm-Gen是一款小型生成式视觉语言模型，主要用于图像描述生成和视觉问答。

图像生成文本

Transformers 英语

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24