Liquid_V1_7B开源模型 - 实现图像代码与文本标记融合，助力视觉理解生成

首页

Liquid V1 7B

由 Junfeng5 开发

Liquid 是一种自回归生成范式，通过将图像标记化为离散代码并在共享特征空间中学习这些代码嵌入与文本标记，实现了视觉理解与生成的无缝融合。

文本生成图像

Transformers

英语开源协议:MIT #多模态生成 #自回归模型 #图像文本融合

下载量 11.35k

发布时间 : 2/21/2025

模型简介

Liquid 是一种创新的多模态大语言模型（MLLM），仅使用单一的大语言模型（LLM）就实现了视觉与文本的无缝融合，无需依赖外部预训练的视觉嵌入。

模型特点

单一模型多模态融合

仅使用单一的大语言模型（LLM）实现视觉与文本的无缝融合，无需依赖外部预训练的视觉嵌入。

自回归生成范式

通过将图像标记化为离散代码，并在共享的特征空间中学习这些代码嵌入与文本标记。

多规模变体

提供六种参数规模的预训练版本（0.5B 至 32B）和基于 GEMMA 的 7B 指令调优版本。

理解与生成相互促进

探索了多模态混合模型的扩展规律，发现理解任务与生成任务之间相互促进的现象。

模型能力

文本生成

图像生成

视觉理解

多模态融合

使用案例

内容创作

多模态内容生成

根据文本描述生成图像，或根据图像生成描述文本。

实现文本与图像之间的无缝转换。

教育

交互式学习工具

通过多模态交互帮助学生理解复杂概念。

提升学习体验和理解效果。

🚀 Liquid模型

Liquid是一种自回归生成范式，它通过将图像标记为离散代码，并在视觉和语言的共享特征空间中与文本标记一起学习这些代码嵌入，实现了视觉理解和生成的无缝集成。与以往的多模态大语言模型不同，Liquid使用单一的大语言模型实现了这种集成，无需外部预训练的视觉嵌入。

🚀 快速开始

暂未提供快速开始相关内容。

✨ 主要特性

多模态集成：通过将图像标记为离散代码，并在视觉和语言的共享特征空间中与文本标记一起学习这些代码嵌入，实现了视觉理解和生成的无缝集成。
单一模型架构：使用单一的大语言模型实现了视觉和语言的集成，无需外部预训练的视觉嵌入。
多种模型尺寸：提供了六种不同尺寸的预训练模型（0.5B、1B、2B、7B、9B、32B参数）和一种指令调优模型（7B参数）。

📦 安装指南

暂未提供安装指南相关内容。

💻 使用示例

暂未提供使用示例相关内容。

📚 详细文档

模型详情

我们推出了Liquid，这是一种自回归生成范式，它通过将图像标记为离散代码，并在视觉和语言的共享特征空间中与文本标记一起学习这些代码嵌入，实现了视觉理解和生成的无缝集成。与以往的多模态大语言模型（MLLM）不同，Liquid使用单一的大语言模型（LLM）实现了这种集成，无需外部预训练的视觉嵌入，如CLIP。Liquid探索了这种多模态混合模型的缩放规律，并发现了理解和生成任务之间的相互促进现象。

变体：Liquid有六种尺寸——预训练变体有来自多模态家族的0.5B、1B、2B、7B、9B、32B参数，指令调优变体有来自GEMMA的7B参数。

输入：模型输入文本和图像。

输出：模型生成文本或生成图像。

模型架构：Liquid是一种基于现有大语言模型扩展的自回归模型，使用了Transformer架构。

引用说明

@article{wu2024liquid,
    title={Liquid: Language Models are Scalable Multi-modal Generators},
    author={Wu, Junfeng and Jiang, Yi and Ma, Chuofan and Liu, Yuliang and Zhao, Hengshuang and Yuan, Zehuan and Bai, Song and Bai, Xiang},
    journal={arXiv preprint arXiv:2412.04332},
    year={2024}
}