4M-7-SR_L_CC12M开源多模态框架 - 支持任意模态转换，覆盖多任务

首页

4M 7 SR L CC12M

由 EPFL-VILAB 开发

4M是一个可扩展的多模态掩码建模框架，支持任意到任意模态转换，覆盖数十种模态和任务。

多模态融合

Safetensors

开源协议:其他 #多模态转换 #掩码建模 #任意到任意

下载量 26

发布时间 : 3/25/2024

模型简介

4M是通过标记化与掩码技术扩展到多种模态的'任意到任意'基础模型训练框架。基于4M训练的模型能执行广泛视觉任务，可迁移至未见过的任务与模态，并具备灵活可控的多模态生成能力。

模型特点

任意到任意模态转换

支持多种模态间的灵活转换，包括视觉、语言等数十种模态

可扩展性

框架设计允许轻松扩展到新的模态和任务

迁移学习能力

能够迁移到未见过的任务和模态

可控生成

支持灵活可控的多模态内容生成

模型能力

多模态转换

视觉任务处理

可控内容生成

跨模态迁移学习

使用案例

计算机视觉

图像生成与编辑

基于不同模态输入生成或编辑图像

跨模态应用

文本到图像生成

根据文本描述生成对应图像

🚀 4M: 大规模多模态掩码建模

一个用于训练任意到任意多模态基础模型的框架。
可扩展。开源。涵盖数十种模态和任务。

项目网站 | GitHub仓库 | BibTeX引用

以下论文的官方实现和预训练模型：

4M: Massively Multimodal Masked Modeling，NeurIPS 2023（亮点论文）
David Mizrahi*，Roman Bachmann*，Oğuzhan Fatih Kar，Teresa Yeo，Mingfei Gao，Afshin Dehghan，Amir Zamir

4M-21: An Any-to-Any Vision Model for Tens of Tasks and Modalities，arXiv 2024
Roman Bachmann*，Oğuzhan Fatih Kar*，David Mizrahi*，Ali Garjani，Mingfei Gao，David Griffiths，Jiaming Hu，Afshin Dehghan，Amir Zamir

4M是一个用于训练“任意到任意”基础模型的框架，它使用分词和掩码技术来扩展到多种不同的模态。使用4M训练的模型可以执行广泛的视觉任务，能够很好地迁移到未见过的任务和模态，并且是灵活且可引导的多模态生成模型。我们发布了“4M: Massively Multimodal Masked Modeling”（此处表示为4M - 7）以及“4M - 21: An Any-to-Any Vision Model for Tens of Tasks and Modalities”（此处表示为4M - 21）的代码和模型。

🚀 快速开始

📦 安装指南

有关安装说明，请参阅 https://github.com/apple/ml-4m 。

💻 使用示例

基础用法

这个模型可以从Hugging Face Hub加载，示例代码如下：

from fourm.models.fm import FM
fm = FM.from_pretrained('EPFL-VILAB/4M-7-SR_L_CC12M')

请参阅 https://github.com/apple/ml-4m/blob/main/README_GENERATION.md 以获取更详细的说明，以及访问 https://github.com/apple/ml-4m 查看其他4M模型和分词器的检查点。

📄 许可证

此仓库中的模型权重根据 LICENSE 文件中的示例代码许可证发布。

📚 引用

如果您发现此仓库有帮助，请考虑引用我们的工作：

@inproceedings{4m,
    title={{4M}: Massively Multimodal Masked Modeling},
    author={David Mizrahi and Roman Bachmann and O{\u{g}}uzhan Fatih Kar and Teresa Yeo and Mingfei Gao and Afshin Dehghan and Amir Zamir},
    booktitle={Thirty-seventh Conference on Neural Information Processing Systems},
    year={2023},
}

@article{4m21,
    title={{4M-21}: An Any-to-Any Vision Model for Tens of Tasks and Modalities},
    author={Roman Bachmann and O{\u{g}}uzhan Fatih Kar and David Mizrahi and Ali Garjani and Mingfei Gao and David Griffiths and Jiaming Hu and Afshin Dehghan and Amir Zamir},
    journal={arXiv 2024},
    year={2024},
}