4

4M 7 B CC12M

由 EPFL-VILAB 开发
4M是一个训练'任意到任意'多模态基础模型的框架,通过标记化和掩码技术扩展到多种不同模态。
下载量 209
发布时间 : 3/25/2024
模型介绍
内容详情
替代品

模型简介

4M框架训练的模型能够执行广泛的视觉任务,良好迁移到未见过的任务和模态,并且是灵活可控的多模态生成模型。

模型特点

任意到任意模态转换
支持多种不同模态之间的相互转换
大规模多模态支持
可扩展到数十种不同的模态和任务
良好的迁移能力
能够良好迁移到未见过的任务和模态
灵活可控的生成
作为多模态生成模型具有高度灵活性和可控性

模型能力

多模态数据转换
视觉任务处理
多模态生成
跨模态迁移学习

使用案例

计算机视觉
图像生成
从其他模态数据生成图像
视觉问答
结合视觉和语言模态回答问题
多模态应用
跨模态检索
在不同模态数据之间进行检索