4

4M 7 SR L CC12M

由 EPFL-VILAB 开发
4M是一个可扩展的多模态掩码建模框架,支持任意到任意模态转换,覆盖数十种模态和任务。
下载量 26
发布时间 : 3/25/2024

模型简介

4M是通过标记化与掩码技术扩展到多种模态的'任意到任意'基础模型训练框架。基于4M训练的模型能执行广泛视觉任务,可迁移至未见过的任务与模态,并具备灵活可控的多模态生成能力。

模型特点

任意到任意模态转换
支持多种模态间的灵活转换,包括视觉、语言等数十种模态
可扩展性
框架设计允许轻松扩展到新的模态和任务
迁移学习能力
能够迁移到未见过的任务和模态
可控生成
支持灵活可控的多模态内容生成

模型能力

多模态转换
视觉任务处理
可控内容生成
跨模态迁移学习

使用案例

计算机视觉
图像生成与编辑
基于不同模态输入生成或编辑图像
跨模态应用
文本到图像生成
根据文本描述生成对应图像
AIbase
智启未来,您的人工智能解决方案智库
简体中文