多模态输入

# 多模态输入

Gemma 3n E4B It Litert Preview GGUF

Gemma-3n-E4B-it-litert-preview是基于Google的Gemma 3n模型微调的版本，支持图像和文本输入并生成文本输出，适用于多模态任务。

图像生成文本

Transformers 英语

Mistral Small 3.2 24B Instruct 2506 GGUF

Mistral Small 3.2 24B Instruct 2506 是一个多语言大语言模型，支持文本和图像输入，文本输出，具有128k的上下文长度。

图像生成文本支持多种语言

lmstudio-community

Gemma 3n E2B It

Gemma 3n是Google推出的轻量级、最先进的开源多模态模型家族，基于与Gemini模型相同的研究和技术构建。支持文本、音频和视觉输入，适用于多种任务。

图像生成文本

Qwen2.5 Omni 7B GGUF

Qwen2.5-Omni-7B-GGUF 是基于 Qwen2.5-Omni-7B 模型的 GGUF 格式版本，支持多模态输入，包括文本、音频和图像。

大型语言模型英语

Qwen2.5 Omni 3B GGUF

Qwen2.5-Omni-3B 是一个多模态模型，支持文本、音频和图像输入，但不支持视频输入和音频生成。

大型语言模型英语

Gemma 3 12b It FP8 Dynamic

基于google/gemma-3-12b-it的FP8量化模型，支持视觉-文本输入和文本输出，适用于多模态场景。

图像生成文本

Transformers 英语

DAM-3B-Video是一个30亿参数的视觉语言模型，能够根据用户指定的图像/视频区域生成精细化局部描述。

图像生成文本英语

Llama 4 Tiny Random

这是一个轻量级随机初始化的文本生成模型，基于Llama-4-Maverick-17B-128E-Instruct配置调整而来，主要用于调试目的。

图像生成文本

Gemma 3 12b Pt Qat Q4 0 Gguf

Gemma 3是Google推出的轻量级开源多模态模型，支持文本与图像输入并生成文本输出，具有128K超长上下文窗口和140+语言支持。

图像生成文本

Ola-7B是由腾讯、清华大学和南洋理工大学联合开发的多模态语言模型，基于Qwen2.5架构，支持文本、图像、视频和音频输入，输出文本内容。

文本生成文本支持多种语言

Stable Diffusion 3.5 Large Controlnet Canny

适配稳定扩散3.5大模型的Canny边缘检测控制网络，用于精确控制图像生成过程

图像生成英语

首个基于DiT的视频生成模型，能够实时生成高质量视频，支持文本转视频和图像+文本转视频两种场景。

文本生成视频英语

迷你G是一个基于大规模合成数据集训练的多模态模型，支持文本和图像输入，拥有1M标记的上下文窗口。

大型语言模型

Transformers 支持多种语言

3DTopia-XL是基于PrimX高效3D表征的扩散Transformer架构，能够快速生成高质量3D资产

Sam2 Hiera Base Plus

SAM 2是FAIR研发的面向图像和视频可提示视觉分割的基础模型，支持通过提示进行高效分割。

Diva Llama 3 V0 8b

DiVA Llama 3是一个端到端的语音助手模型，能够处理语音和文本输入，采用蒸馏损失进行训练。

文本生成音频

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24