多模态交互

# 多模态交互

Qwen2.5 Omni 3B GGUF

Qwen2.5-Omni-3B-GGUF 是一个端到端的多模态模型，能够感知文本、图像、音频和视频等多种模态信息，同时以流式方式生成文本和自然语音响应。

多模态融合

Transformers 英语

Moondream 2b 2025 04 14 4bit

Moondream是一款轻量级视觉语言模型，专为高效全平台运行而设计。2025年4月14日发布的4比特量化版在保持高精度的同时大幅降低内存占用。

图像生成文本

AgentCPM-GUI是一款具备RFT增强推理能力的设备端图形界面代理，可操作中英文应用，基于80亿参数的MiniCPM-V构建。

图像生成文本支持多种语言

UI TARS 1.5 7B 4bit

UI-TARS-1.5-7B-4bit是一个多模态模型，专注于图像文本到文本的转换任务，支持英文语言。

图像生成文本

Transformers 支持多种语言

Google.gemma 3 12b It Qat Int4 Unquantized GGUF

这是一个量化版本的Gemma模型，旨在通过量化技术实现知识的广泛共享。

大型语言模型

Llama 4 Scout 17B 16E Instruct INT4

Llama 4系列是Meta推出的原生多模态AI模型，采用混合专家架构，支持文本和图像交互，在多种语言和视觉任务中表现卓越。

多模态融合

Transformers 支持多种语言

Llama 4 Scout 17B 16E Instruct FP8

Llama 4系列是Meta推出的原生多模态AI模型，支持文本和图像交互，采用混合专家架构，在文本和图像理解方面表现卓越。

多模态融合

Transformers 支持多种语言

Gemma 3 12b It Qat 3bit

这是一个基于 Google Gemma 3-12B 模型转换而来的 MLX 格式模型，支持图像文本到文本的任务。

图像生成文本

Transformers 其他

Videochat R1 Thinking 7B

VideoChat-R1-thinking_7B 是一个基于 Qwen2.5-VL-7B-Instruct 的多模态模型，专注于视频文本转文本任务。

视频生成文本

Transformers 英语

Jarvisvla Qwen2 VL 7B

专为《我的世界》设计的视觉-语言-动作模型，支持基于人类语言指令执行游戏内数千种技能

图像生成文本

Transformers 英语

Qwen2.5 VL 3B UI R1

UI-R1是通过强化学习增强GUI代理动作预测的视觉语言模型，基于Qwen2.5-VL-3B-Instruct构建。

文本生成图像英语

Vamba Qwen2 VL 7B

Vamba是一种混合Mamba-Transformer架构，通过交叉注意力层与Mamba-2模块实现高效的长视频理解。

视频生成文本

Qwen.qwen2 VL 2B GGUF

Qwen2-VL-2B是一个多模态模型，能够处理图像和文本输入，生成文本输出。

图像生成文本

Videochatonline 4B

VideoChat-Online是一个基于Phi-3-vision-128k-instruct的在线视频理解模型，专注于视频文本转文本任务。

视频生成文本

Smolvlm2 500M Video Instruct Mlx

这是一个基于MLX格式的视频文本转文本模型，由HuggingFaceTB开发，支持英文语言处理。

图像生成文本

Transformers 英语

Ultravox V0 5 Llama 3 1 8b

Ultravox是一款基于Llama3.1-8B-Instruct和whisper-large-v3-turbo构建的多模态语音大语言模型，能够同时处理语音和文本输入。

文本生成音频

Transformers 支持多种语言

Fluxi AI Small Vision

Fluxi AI 是一款基于 Qwen2-VL-7B-Instruct 的多模态智能助手，具备文本、图像和视频处理能力，特别优化了葡萄牙语支持。

图像生成文本

Transformers 其他

UGround是一个强大的GUI视觉定位模型，采用简单的方法进行训练，由OSUNLP和Orby AI合作完成。

多模态融合

Transformers 英语

UGround是一款采用简单配方训练的强大GUI视觉定位模型，由OSU NLP Group与Orby AI合作完成。

图像生成文本

Transformers 英语

Smolvlm Instruct

基于HuggingFaceTB/SmolVLM-Instruct微调的智能视觉语言模型，采用Unsloth和TRL库优化训练速度

文本生成图像

Transformers 英语

Dallah是一款专为阿拉伯语设计的先进多模态大语言模型，特别注重理解与生成跨阿拉伯方言的内容。

文本生成图像

Safetensors 阿拉伯语

PAE-LLaVa-7B是基于PAE（Proposer-Agent-Evaluator）框架的基础模型互联网智能体，专注于自主技能发现。

文本生成图像

由 OMEGA Labs 和 Bittensor 合作开发的 Any-to-Any 子网模型，支持多种任务转换

大型语言模型其他

Mini-Omni2是一款全交互式多模态模型，能理解图像、音频和文本输入，并与用户进行端到端的语音对话。

多模态融合

Sam2.1 Hiera Tiny

SAM 2是由FAIR研发的面向图像和视频可提示视觉分割的基础模型，支持通过提示进行高效分割。

Sam2.1 Hiera Small

SAM 2是FAIR研发的面向图像与视频可提示视觉分割的基础模型，支持通过提示进行高效分割。

Sam2.1 Hiera Large

SAM 2是FAIR研发的面向图像与视频可提示视觉分割的基础模型，支持通过提示进行通用分割任务。

Llava Video 7B Qwen2

LLaVA-视频模型是基于Qwen2语言模型的7B参数多模态模型，专注于视频理解任务，支持64帧视频输入。

视频生成文本

Transformers 英语

Xgen Mm Phi3 Mini Instruct Interleave R V1.5

xGen-MM是Salesforce AI Research开发的一系列最新基础大型多模态模型（LMMs），在BLIP系列成功设计的基础上进行了改进，通过基础性增强确保了更强大和卓越的模型基础。

图像生成文本英语

Sam2 Hiera Small

FAIR研发的基础模型，用于解决图像和视频中可提示视觉分割任务

Sam2 Hiera Tiny

SAM 2是FAIR研发的面向图像和视频可提示视觉分割的基础模型，支持通过提示进行高效分割。

Sam2 Hiera Large

FAIR研发的面向图像与视频可提示视觉分割的基础模型

UGround是通过简洁配方训练的强力GUI视觉定位模型，由俄亥俄州立大学NLP组与Orby AI合作完成。

图像生成文本

Internvideo2 Chat 8B

InternVideo2-Chat-8B是一个结合大型语言模型(LLM)和视频BLIP的视频理解模型，通过渐进式学习方案构建，能够进行视频语义理解和人机交互。

视频生成文本

Transformers 英语

Llava MORE Llama 3 1 8B Finetuning

LLaVA-MORE是基于LLaVA架构的增强版本，集成了LLaMA 3.1作为语言模型，专注于图像到文本的任务。

图像生成文本

Poppy Porpoise 0.72 L3 8B

基于Llama 3 8B模型的AI角色扮演助手，专注于打造沉浸式叙事体验

大型语言模型

Poppy Porpoise V0.7 L3 8B

基于Llama 3 8B模型的AI角色扮演助手，专注于打造互动叙事体验

文本生成图像

Mixtral AI Vision 128k 7b

一个结合视觉与语言能力的多模态模型，通过合并方法实现图像与文本交互功能

图像生成文本

Transformers 英语

Instructblip Flan T5 Xl 8bit Nf4

InstructBLIP是基于BLIP-2的视觉指令调优版本，结合视觉和语言处理能力，能够根据图像和文本指令生成响应。

图像生成文本

Transformers 英语

Instructblip Flan T5 Xl 8bit Nf4

InstructBLIP是基于BLIP-2的视觉指令调优模型，使用Flan-T5-xl作为语言模型，能够根据图像和文本指令生成描述。

图像生成文本

Transformers 英语

Mediocreatmybest

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24