多模态融合

2025年最佳的 149 个多模态融合工具

CodeBERT是一个面向编程语言与自然语言的预训练模型，基于RoBERTa架构，支持代码搜索和代码生成文档等功能。

多模态融合

Llama 4 Scout 17B 16E Instruct

Llama 4 Scout是Meta开发的多模态AI模型，采用混合专家架构，支持12种语言的文本和图像交互，具有17B激活参数和109B总参数。

多模态融合

Transformers 支持多种语言

UniXcoder是一个统一的多模态预训练模型，利用代码注释和抽象语法树等多模态数据预训练代码表示。

多模态融合

Transformers 英语

TITAN是一个多模态全切片基础模型，通过视觉自监督学习和视觉-语言对齐进行预训练，用于病理学图像分析。

多模态融合英语

Qwen2.5 Omni 7B

Qwen2.5-Omni 是一个端到端的多模态模型，能够感知文本、图像、音频和视频等多种模态，并以流式方式生成文本和自然语音响应。

多模态融合

Transformers 英语

MiniCPM-o 2.6是一款手机端运行的GPT-4o级多模态大模型，支持视觉、语音与直播流处理

多模态融合

Transformers 其他

Llama 4 Scout 17B 16E Instruct

Llama 4 Scout是Meta推出的17B参数/16专家混合的多模态AI模型，支持12种语言和图像理解，具有行业领先性能。

多模态融合

Transformers 支持多种语言

Qwen2.5 Omni 3B

Qwen2.5-Omni是一款端到端多模态模型，能够感知文本、图像、音频和视频等多种模态信息，并以流式方式同步生成文本和自然语音响应。

多模态融合

Transformers 英语

Q-Align是一个多任务视觉评估模型，专注于图像质量评估(IQA)、美学评估(IAA)和视频质量评估(VQA)，在ICML2024上发表。

多模态融合

Biomedvlp BioViL T

BioViL-T是一个专注于分析胸部X光片和放射学报告的视觉语言模型，通过时序多模态预训练提升性能。

多模态融合

Transformers 英语

Meta变色龙是FAIR研发的混合模态早期融合基础模型，支持图像和文本的多模态处理。

多模态融合

LLM2CLIP Llama 3 8B Instruct CC Finetuned

LLM2CLIP是一种创新方法，通过大语言模型增强CLIP的跨模态能力，显著提升视觉和文本表征的判别力。

多模态融合

Unixcoder Base Nine

UniXcoder是一个统一的多模态预训练模型，通过利用多模态数据（如代码注释和抽象语法树）来预训练代码表示。

多模态融合

Transformers 英语

Llama Guard 4 12B

Llama Guard 4 是一个原生多模态安全分类器，拥有120亿参数，联合训练于文本和多重图像，用于大语言模型输入和输出的内容安全评估。

多模态融合

Transformers 英语

Spatialvla 4b 224 Pt

SpatialVLA是基于110万真实机器人操作片段训练的空间增强视觉语言动作模型，专注于机器人控制任务

多模态融合

Transformers 英语

Pi0是一个通用机器人控制的视觉-语言-动作流模型，支持机器人控制任务。

多模态融合

Colnomic Embed Multimodal 7b

ColNomic Embed Multimodal 7B是一款多向量最先进的多模态嵌入模型，擅长视觉文档检索任务，支持多语言和统一文本图像编码。

多模态融合支持多种语言

Llama 4 Scout 17B 16E Linearized Bnb Nf4 Bf16

羊驼4 Scout是Meta发布的170亿参数混合专家模型(MoE)，支持多语言文本和图像理解，采用线性化专家模块设计便于PEFT/LoRA兼容。

多模态融合

Transformers 支持多种语言

CogACT是一种新型视觉语言动作(VLA)架构，结合视觉语言模型与专用动作模块，用于机器人操作任务。

多模态融合

Transformers 英语

Llama 4 Maverick 17B 128E Instruct FP8

Llama 4系列原生多模态AI模型，支持文本和图像理解，采用混合专家架构，适用于商业和研究场景。

多模态融合

Transformers 支持多种语言

Colnomic Embed Multimodal 3b

ColNomic Embed多模态3B是一款30亿参数的多模态嵌入模型，专为视觉文档检索任务设计，支持多语言文本和图像的统一编码。

多模态融合支持多种语言

Llama Guard 3 11B Vision

基于Llama-3.2-11B微调的多模态内容安全分类器，专为检测图文混合有害内容优化

多模态融合

Transformers 支持多种语言

Dse Qwen2 2b Mrl V1

DSE-QWen2-2b-MRL-V1 是一个双编码器模型，专为将文档截图编码为密集向量以实现文档检索而设计。

多模态融合支持多种语言

Biomedclip Vit Bert Hf

基于PyTorch和Huggingface框架实现的BiomedCLIP模型，复现了原版microsoft/BiomedCLIP-PubMedBERT_256-vit_base_patch16_224模型

多模态融合

Transformers 英语

轻量级统一多模态模型，高效处理图像、文本、音频和视频等多种模态数据，在语音和图像生成方面表现出色。

多模态融合

Qwen2.5 Omni 7B GPTQ 4bit

基于Qwen2.5-Omni-7B模型的4比特GPTQ量化版本，支持多语言和多模态任务。

多模态融合

Safetensors 支持多种语言

Taxabind Vit B 16

TaxaBind 是一个包含六种模态的多模态嵌入空间模型，专注于生态应用，支持利用分类学文本类别对物种图像进行零样本分类。

多模态融合

英伟达Isaac GR00T N1是全球首个面向通用人形机器人推理与技能的开源基础模型，具有20亿参数规模。

多模态融合

Hume-System2是一个双系统视觉-语言-行动（VLA）模型的系统2预训练权重，用于加速系统2的训练，为机器人领域的相关研究和应用提供支持。

多模态融合

Transformers 英语

LLaVE是基于LLaVA-OneVision-0.5B模型的多模态嵌入模型，参数规模为0.5B，能够对文本、图像、多图像和视频进行嵌入。

多模态融合

Transformers 英语

Libero Object 1

Hume-Libero_Object是一个在Libero-Object数据集上训练的双系统视觉-语言-动作模型，具备系统2思维能力，适用于机器人领域的研究和应用。

多模态融合

Transformers 英语

Hume-Libero_Goal是一个基于双系统思维的视觉-语言-动作模型，专为机器人任务设计，融合了System-2思维以提高决策能力。

多模态融合

Transformers 英语

基于100万+多机器人操作数据预训练的10亿参数模仿学习扩散Transformer模型，支持多视角视觉语言动作预测

多模态融合

Transformers 英语

robotics-diffusion-transformer

Openvla 7b Oft Finetuned Libero Spatial

OpenVLA-OFT是一个经过优化的视觉-语言-动作模型，通过微调技术显著提升了基础OpenVLA模型的运行速度和任务成功率。

多模态融合

Llama 4 Scout 17B 16E Unsloth Bnb 4bit

Llama 4 Scout是Meta开发的多模态混合专家模型，支持12种语言和图像理解，具有170亿激活参数和10M上下文长度。

多模态融合

Transformers 支持多种语言

基于Qwen2.5-Omni-7B构建的多模态嵌入模型，支持跨语言文本、图像、音频和视频的统一嵌入表示

多模态融合

Llama 4 Scout 17B 16E Unsloth Dynamic Bnb 4bit

Llama 4 Scout是Meta推出的170亿参数混合专家架构多模态模型，支持12种语言和图像理解

多模态融合

Transformers 支持多种语言

Eagle X4 8B Plus

Eagle是一个以视觉为中心的高分辨率多模态大语言模型家族，通过融合多种视觉编码器和不同输入分辨率，增强了多模态大语言模型的感知能力。

多模态融合

Chattime 1 7B Chat

ChatTime是一个统一处理时间序列与文本的多模态基础模型，具备零样本预测能力，支持时间序列与文本的双模态输入/输出。

多模态融合

Mlcd Vit Large Patch14 336

基于ViT-L/14@336px架构的视觉特征提取模型，在多项多模态任务中超越CLIP基准

多模态融合

LLaVE-7B是基于LLaVA-OneVision-7B模型的70亿参数多模态嵌入模型，具备文本、图像、多图像和视频的嵌入表示能力。

多模态融合

Transformers 英语

π0+FAST 是一种面向机器人技术的高效动作标记化方案，由Physical Intelligence设计，适用于视觉-语言-动作任务。

多模态融合

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24