2025年最佳的 149 个多模态融合工具

Codebert Base
CodeBERT是一个面向编程语言与自然语言的预训练模型,基于RoBERTa架构,支持代码搜索和代码生成文档等功能。
多模态融合
C
microsoft
1.6M
248
Llama 4 Scout 17B 16E Instruct
其他
Llama 4 Scout是Meta开发的多模态AI模型,采用混合专家架构,支持12种语言的文本和图像交互,具有17B激活参数和109B总参数。
多模态融合 Transformers 支持多种语言
L
meta-llama
817.62k
844
Unixcoder Base
Apache-2.0
UniXcoder是一个统一的多模态预训练模型,利用代码注释和抽象语法树等多模态数据预训练代码表示。
多模态融合 Transformers 英语
U
microsoft
347.45k
51
TITAN
TITAN是一个多模态全切片基础模型,通过视觉自监督学习和视觉-语言对齐进行预训练,用于病理学图像分析。
多模态融合 英语
T
MahmoodLab
213.39k
37
Qwen2.5 Omni 7B
其他
Qwen2.5-Omni 是一个端到端的多模态模型,能够感知文本、图像、音频和视频等多种模态,并以流式方式生成文本和自然语音响应。
多模态融合 Transformers 英语
Q
Qwen
206.20k
1,522
Minicpm O 2 6
MiniCPM-o 2.6是一款手机端运行的GPT-4o级多模态大模型,支持视觉、语音与直播流处理
多模态融合 Transformers 其他
M
openbmb
178.38k
1,117
Llama 4 Scout 17B 16E Instruct
其他
Llama 4 Scout是Meta推出的17B参数/16专家混合的多模态AI模型,支持12种语言和图像理解,具有行业领先性能。
多模态融合 Transformers 支持多种语言
L
chutesai
173.52k
2
Qwen2.5 Omni 3B
其他
Qwen2.5-Omni是一款端到端多模态模型,能够感知文本、图像、音频和视频等多种模态信息,并以流式方式同步生成文本和自然语音响应。
多模态融合 Transformers 英语
Q
Qwen
48.07k
219
One Align
MIT
Q-Align是一个多任务视觉评估模型,专注于图像质量评估(IQA)、美学评估(IAA)和视频质量评估(VQA),在ICML2024上发表。
多模态融合 Transformers
O
q-future
39.48k
25
Biomedvlp BioViL T
MIT
BioViL-T是一个专注于分析胸部X光片和放射学报告的视觉语言模型,通过时序多模态预训练提升性能。
多模态融合 Transformers 英语
B
microsoft
26.39k
35
Chameleon 7b
其他
Meta变色龙是FAIR研发的混合模态早期融合基础模型,支持图像和文本的多模态处理。
多模态融合 Transformers
C
facebook
20.97k
179
LLM2CLIP Llama 3 8B Instruct CC Finetuned
Apache-2.0
LLM2CLIP是一种创新方法,通过大语言模型增强CLIP的跨模态能力,显著提升视觉和文本表征的判别力。
多模态融合
L
microsoft
18.16k
35
Unixcoder Base Nine
Apache-2.0
UniXcoder是一个统一的多模态预训练模型,通过利用多模态数据(如代码注释和抽象语法树)来预训练代码表示。
多模态融合 Transformers 英语
U
microsoft
17.35k
19
Llama Guard 4 12B
其他
Llama Guard 4 是一个原生多模态安全分类器,拥有120亿参数,联合训练于文本和多重图像,用于大语言模型输入和输出的内容安全评估。
多模态融合 Transformers 英语
L
meta-llama
16.52k
30
Spatialvla 4b 224 Pt
MIT
SpatialVLA是基于110万真实机器人操作片段训练的空间增强视觉语言动作模型,专注于机器人控制任务
多模态融合 Transformers 英语
S
IPEC-COMMUNITY
13.06k
5
Pi0
Apache-2.0
Pi0是一个通用机器人控制的视觉-语言-动作流模型,支持机器人控制任务。
多模态融合
P
lerobot
11.84k
230
Colnomic Embed Multimodal 7b
Apache-2.0
ColNomic Embed Multimodal 7B是一款多向量最先进的多模态嵌入模型,擅长视觉文档检索任务,支持多语言和统一文本图像编码。
多模态融合 支持多种语言
C
nomic-ai
7,909
45
Llama 4 Scout 17B 16E Linearized Bnb Nf4 Bf16
其他
羊驼4 Scout是Meta发布的170亿参数混合专家模型(MoE),支持多语言文本和图像理解,采用线性化专家模块设计便于PEFT/LoRA兼容。
多模态融合 Transformers 支持多种语言
L
axolotl-quants
6,861
3
Cogact Base
MIT
CogACT是一种新型视觉语言动作(VLA)架构,结合视觉语言模型与专用动作模块,用于机器人操作任务。
多模态融合 Transformers 英语
C
CogACT
6,589
12
Llama 4 Maverick 17B 128E Instruct FP8
其他
Llama 4系列原生多模态AI模型,支持文本和图像理解,采用混合专家架构,适用于商业和研究场景。
多模态融合 Transformers 支持多种语言
L
RedHatAI
5,679
1
Colnomic Embed Multimodal 3b
ColNomic Embed多模态3B是一款30亿参数的多模态嵌入模型,专为视觉文档检索任务设计,支持多语言文本和图像的统一编码。
多模态融合 支持多种语言
C
nomic-ai
4,636
17
Llama Guard 3 11B Vision
基于Llama-3.2-11B微调的多模态内容安全分类器,专为检测图文混合有害内容优化
多模态融合 Transformers 支持多种语言
L
meta-llama
4,553
60
Dse Qwen2 2b Mrl V1
Apache-2.0
DSE-QWen2-2b-MRL-V1 是一个双编码器模型,专为将文档截图编码为密集向量以实现文档检索而设计。
多模态融合 支持多种语言
D
MrLight
4,447
56
Biomedclip Vit Bert Hf
MIT
基于PyTorch和Huggingface框架实现的BiomedCLIP模型,复现了原版microsoft/BiomedCLIP-PubMedBERT_256-vit_base_patch16_224模型
多模态融合 Transformers 英语
B
chuhac
4,437
1
Ming Lite Omni
MIT
轻量级统一多模态模型,高效处理图像、文本、音频和视频等多种模态数据,在语音和图像生成方面表现出色。
多模态融合 Transformers
M
inclusionAI
4,215
103
Qwen2.5 Omni 7B GPTQ 4bit
MIT
基于Qwen2.5-Omni-7B模型的4比特GPTQ量化版本,支持多语言和多模态任务。
多模态融合 Safetensors 支持多种语言
Q
FunAGI
3,957
51
Taxabind Vit B 16
MIT
TaxaBind 是一个包含六种模态的多模态嵌入空间模型,专注于生态应用,支持利用分类学文本类别对物种图像进行零样本分类。
多模态融合
T
MVRL
3,672
0
GR00T N1 2B
英伟达Isaac GR00T N1是全球首个面向通用人形机器人推理与技能的开源基础模型,具有20亿参数规模。
多模态融合
G
nvidia
3,631
284
Hume System2
MIT
Hume-System2是一个双系统视觉-语言-行动(VLA)模型的系统2预训练权重,用于加速系统2的训练,为机器人领域的相关研究和应用提供支持。
多模态融合 Transformers 英语
H
Hume-vla
3,225
1
Llave 0.5B
Apache-2.0
LLaVE是基于LLaVA-OneVision-0.5B模型的多模态嵌入模型,参数规模为0.5B,能够对文本、图像、多图像和视频进行嵌入。
多模态融合 Transformers 英语
L
zhibinlan
2,897
7
Libero Object 1
MIT
Hume-Libero_Object是一个在Libero-Object数据集上训练的双系统视觉-语言-动作模型,具备系统2思维能力,适用于机器人领域的研究和应用。
多模态融合 Transformers 英语
L
Hume-vla
2,836
0
Libero Goal 1
MIT
Hume-Libero_Goal是一个基于双系统思维的视觉-语言-动作模型,专为机器人任务设计,融合了System-2思维以提高决策能力。
多模态融合 Transformers 英语
L
Hume-vla
2,698
1
Rdt 1b
MIT
基于100万+多机器人操作数据预训练的10亿参数模仿学习扩散Transformer模型,支持多视角视觉语言动作预测
多模态融合 Transformers 英语
R
robotics-diffusion-transformer
2,644
80
Openvla 7b Oft Finetuned Libero Spatial
MIT
OpenVLA-OFT是一个经过优化的视觉-语言-动作模型,通过微调技术显著提升了基础OpenVLA模型的运行速度和任务成功率。
多模态融合 Transformers
O
moojink
2,513
3
Llama 4 Scout 17B 16E Unsloth Bnb 4bit
其他
Llama 4 Scout是Meta开发的多模态混合专家模型,支持12种语言和图像理解,具有170亿激活参数和10M上下文长度。
多模态融合 Transformers 支持多种语言
L
unsloth
2,492
1
Omniembed V0.1
MIT
基于Qwen2.5-Omni-7B构建的多模态嵌入模型,支持跨语言文本、图像、音频和视频的统一嵌入表示
多模态融合
O
Tevatron
2,190
3
Llama 4 Scout 17B 16E Unsloth Dynamic Bnb 4bit
其他
Llama 4 Scout是Meta推出的170亿参数混合专家架构多模态模型,支持12种语言和图像理解
多模态融合 Transformers 支持多种语言
L
unsloth
1,935
2
Eagle X4 8B Plus
Eagle是一个以视觉为中心的高分辨率多模态大语言模型家族,通过融合多种视觉编码器和不同输入分辨率,增强了多模态大语言模型的感知能力。
多模态融合 Transformers
E
NVEagle
1,699
4
Chattime 1 7B Chat
Apache-2.0
ChatTime是一个统一处理时间序列与文本的多模态基础模型,具备零样本预测能力,支持时间序列与文本的双模态输入/输出。
多模态融合 Transformers
C
ChengsenWang
1,621
2
Mlcd Vit Large Patch14 336
Apache-2.0
基于ViT-L/14@336px架构的视觉特征提取模型,在多项多模态任务中超越CLIP基准
多模态融合
M
DeepGlint-AI
1,450
10
Llave 7B
Apache-2.0
LLaVE-7B是基于LLaVA-OneVision-7B模型的70亿参数多模态嵌入模型,具备文本、图像、多图像和视频的嵌入表示能力。
多模态融合 Transformers 英语
L
zhibinlan
1,389
5
Pi0fast Base
Apache-2.0
π0+FAST 是一种面向机器人技术的高效动作标记化方案,由Physical Intelligence设计,适用于视觉-语言-动作任务。
多模态融合 Safetensors
P
lerobot
1,372
12
AIbase
智启未来,您的人工智能解决方案智库
简体中文