LanguageBind_Video开源多模态预训练框架 - 借助语言语义实现视频多模态应用

首页

Languagebind Video

由 LanguageBind 开发

LanguageBind是一种通过语言语义对齐将视频-语言预训练扩展至N模态的多模态预训练框架，被ICLR 2024收录。

多模态对齐

Transformers

开源协议:MIT #多模态对齐 #零样本学习 #视频语言预训练

下载量 166

发布时间 : 10/6/2023

模型简介

LanguageBind采用以语言为核心的多模态预训练框架，通过语言桥接不同模态，充分利用语言模态语义丰富的特性。

模型特点

高性能免中间模态

通过语言桥接不同模态，充分利用语言模态语义丰富的特性，可轻松扩展至分割、检测等任务，理论上支持无限模态扩展。

多模态全对齐海量数据集

发布VIDAL-10M数据集，包含1000万条视频、红外、深度、音频与语言数据，极大拓展了视觉模态边界。

多视角语言增强

创新性提出融合元数据、空间、时序的多视角语言描述方法，并通过ChatGPT强化语义，为各模态构建优质语义对齐空间。

模型能力

多模态语义对齐

视频理解

音频理解

红外图像理解

深度图像理解

语言语义增强

使用案例

视频理解

视频内容分析

通过视频与语言的语义对齐，实现对视频内容的深度理解。

在多个视频理解任务上达到业界最佳性能。

音频理解

音频内容分析

通过音频与语言的语义对齐，实现对音频内容的深度理解。

在5个数据集上达到业界最佳性能。

🚀 【ICLR 2024 🔥】LanguageBind: 通过基于语言的语义对齐将视频-语言预训练扩展到 N 模态

LanguageBind 是一种以语言为中心的多模态预训练方法，以语言作为不同模态之间的纽带。它提出了包含视频、红外、深度、音频及对应语言的 VIDAL - 10M 数据集，还对语言进行多视图增强描述用于训练。该方法性能出色，且无需中间模态，可轻松扩展到分割、检测等任务。

🚀 快速开始

本地演示

强烈推荐尝试我们的网页演示，它整合了 LanguageBind 当前支持的所有功能。

python gradio_app.py

在线演示

我们在 Huggingface Spaces 上提供了在线演示。在这个演示中，你可以计算模态与语言之间的相似度，例如音频与语言、视频与语言、深度与图像之间的相似度。

✨ 主要特性

💡 高性能，无需中间模态

LanguageBind 是一种以语言为中心的多模态预训练方法，以语言作为不同模态之间的纽带，因为语言模态已经得到了充分的探索，并且包含丰富的语义。

下图展示了 LanguageBind 的架构。LanguageBind 可以轻松扩展到分割、检测任务，并且有可能扩展到无限的模态。

⚡️ 多模态、完全对齐且海量的数据集

我们提出了 VIDAL - 10M，这是一个包含 1000 万条数据的数据集，涵盖了视频、红外、深度、音频及其对应的语言，极大地扩展了视觉模态之外的数据。

第二张图展示了我们提出的 VIDAL - 10M 数据集，它包含视频、红外、深度、音频和语言五种模态。

🔥 用于训练的多视图增强描述

我们对语言进行了多视图增强。我们生成了结合元数据、空间和时间的多视图描述，以极大地增强语言的语义信息。此外，我们还进一步使用 ChatGPT 增强语言，为每个模态对齐的语言创建一个良好的语义空间。

📦 安装指南

Python >= 3.8
Pytorch >= 1.13.1
CUDA 版本 >= 11.6
安装所需的包：

git clone https://github.com/PKU-YuanGroup/LanguageBind
cd LanguageBind
pip install torch==1.13.1+cu116 torchvision==0.14.1+cu116 torchaudio==0.13.1 --extra-index-url https://download.pytorch.org/whl/cu116
pip install -r requirements.txt

💻 使用示例

基础用法

import torch
from languagebind import LanguageBind, to_device, transform_dict, LanguageBindImageTokenizer

if __name__ == '__main__':
    device = 'cuda:0'
    device = torch.device(device)
    clip_type = {
        'video': 'LanguageBind_Video_FT',  # also LanguageBind_Video
        'audio': 'LanguageBind_Audio_FT',  # also LanguageBind_Audio
        'thermal': 'LanguageBind_Thermal',
        'image': 'LanguageBind_Image',
        'depth': 'LanguageBind_Depth',
    }

    model = LanguageBind(clip_type=clip_type, cache_dir='./cache_dir')
    model = model.to(device)
    model.eval()
    pretrained_ckpt = f'lb203/LanguageBind_Image'
    tokenizer = LanguageBindImageTokenizer.from_pretrained(pretrained_ckpt, cache_dir='./cache_dir/tokenizer_cache_dir')
    modality_transform = {c: transform_dict[c](model.modality_config[c]) for c in clip_type.keys()}

    image = ['assets/image/0.jpg', 'assets/image/1.jpg']
    audio = ['assets/audio/0.wav', 'assets/audio/1.wav']
    video = ['assets/video/0.mp4', 'assets/video/1.mp4']
    depth = ['assets/depth/0.png', 'assets/depth/1.png']
    thermal = ['assets/thermal/0.jpg', 'assets/thermal/1.jpg']
    language = ["Training a parakeet to climb up a ladder.", 'A lion climbing a tree to catch a monkey.']

    inputs = {
        'image': to_device(modality_transform['image'](image), device),
        'video': to_device(modality_transform['video'](video), device),
        'audio': to_device(modality_transform['audio'](audio), device),
        'depth': to_device(modality_transform['depth'](depth), device),
        'thermal': to_device(modality_transform['thermal'](thermal), device),
    }
    inputs['language'] = to_device(tokenizer(language, max_length=77, padding='max_length',
                                             truncation=True, return_tensors='pt'), device)

    with torch.no_grad():
        embeddings = model(inputs)

    print("Video x Text: \n",
          torch.softmax(embeddings['video'] @ embeddings['language'].T, dim=-1).detach().cpu().numpy())
    print("Image x Text: \n",
          torch.softmax(embeddings['image'] @ embeddings['language'].T, dim=-1).detach().cpu().numpy())
    print("Depth x Text: \n",
          torch.softmax(embeddings['depth'] @ embeddings['language'].T, dim=-1).detach().cpu().numpy())
    print("Audio x Text: \n",
          torch.softmax(embeddings['audio'] @ embeddings['language'].T, dim=-1).detach().cpu().numpy())
    print("Thermal x Text: \n",
          torch.softmax(embeddings['thermal'] @ embeddings['language'].T, dim=-1).detach().cpu().numpy())

运行上述代码后，将返回以下结果：

Video x Text: 
 [[9.9989331e-01 1.0667283e-04]
 [1.3255903e-03 9.9867439e-01]]
Image x Text: 
 [[9.9990666e-01 9.3292067e-05]
 [4.6132666e-08 1.0000000e+00]]
Depth x Text: 
 [[0.9954276  0.00457235]
 [0.12042473 0.8795753 ]]
Audio x Text: 
 [[0.97634876 0.02365119]
 [0.02917843 0.97082156]]
Thermal x Text: 
 [[0.9482511  0.0517489 ]
 [0.48746133 0.5125386 ]]

高级用法

应急零样本

由于 LanguageBind 将每个模态绑定在一起，我们还发现了应急零样本的用法。使用方法非常简单：

print("Video x Audio: \n", torch.softmax(embeddings['video'] @ embeddings['audio'].T, dim=-1).detach().cpu().numpy())
print("Image x Depth: \n", torch.softmax(embeddings['image'] @ embeddings['depth'].T, dim=-1).detach().cpu().numpy())
print("Image x Thermal: \n", torch.softmax(embeddings['image'] @ embeddings['thermal'].T, dim=-1).detach().cpu().numpy())

运行上述代码后，你将得到：

Video x Audio: 
 [[1.0000000e+00 0.0000000e+00]
 [3.1150486e-32 1.0000000e+00]]
Image x Depth: 
 [[1. 0.]
 [0. 1.]]
Image x Thermal: 
 [[1. 0.]
 [0. 1.]]

不同分支用于跨语言任务

此外，LanguageBind 可以分解为不同的分支来处理不同的任务。请注意，我们没有对图像进行训练，只是从 OpenCLIP 进行初始化。

热成像

import torch
from languagebind import LanguageBindThermal, LanguageBindThermalTokenizer, LanguageBindThermalProcessor

pretrained_ckpt = 'LanguageBind/LanguageBind_Thermal'
model = LanguageBindThermal.from_pretrained(pretrained_ckpt, cache_dir='./cache_dir')
tokenizer = LanguageBindThermalTokenizer.from_pretrained(pretrained_ckpt, cache_dir='./cache_dir')
thermal_process = LanguageBindThermalProcessor(model.config, tokenizer)

model.eval()
data = thermal_process([r"your/thermal.jpg"], ['your text'], return_tensors='pt')
with torch.no_grad():
    out = model(**data)

print(out.text_embeds @ out.image_embeds.T)

深度

import torch
from languagebind import LanguageBindDepth, LanguageBindDepthTokenizer, LanguageBindDepthProcessor

pretrained_ckpt = 'LanguageBind/LanguageBind_Depth'
model = LanguageBindDepth.from_pretrained(pretrained_ckpt, cache_dir='./cache_dir')
tokenizer = LanguageBindDepthTokenizer.from_pretrained(pretrained_ckpt, cache_dir='./cache_dir')
depth_process = LanguageBindDepthProcessor(model.config, tokenizer)

model.eval()
data = depth_process([r"your/depth.png"], ['your text.'], return_tensors='pt')
with torch.no_grad():
    out = model(**data)

print(out.text_embeds @ out.image_embeds.T)

视频

import torch
from languagebind import LanguageBindVideo, LanguageBindVideoTokenizer, LanguageBindVideoProcessor

pretrained_ckpt = 'LanguageBind/LanguageBind_Video_FT'  # also 'LanguageBind/LanguageBind_Video'
model = LanguageBindVideo.from_pretrained(pretrained_ckpt, cache_dir='./cache_dir')
tokenizer = LanguageBindVideoTokenizer.from_pretrained(pretrained_ckpt, cache_dir='./cache_dir')
video_process = LanguageBindVideoProcessor(model.config, tokenizer)

model.eval()
data = video_process(["your/video.mp4"], ['your text.'], return_tensors='pt')
with torch.no_grad():
    out = model(**data)

print(out.text_embeds @ out.image_embeds.T)

音频

import torch
from languagebind import LanguageBindAudio, LanguageBindAudioTokenizer, LanguageBindAudioProcessor

pretrained_ckpt = 'LanguageBind/LanguageBind_Audio_FT'  # also 'LanguageBind/LanguageBind_Audio'
model = LanguageBindAudio.from_pretrained(pretrained_ckpt, cache_dir='./cache_dir')
tokenizer = LanguageBindAudioTokenizer.from_pretrained(pretrained_ckpt, cache_dir='./cache_dir')
audio_process = LanguageBindAudioProcessor(model.config, tokenizer)

model.eval()
data = audio_process([r"your/audio.wav"], ['your audio.'], return_tensors='pt')
with torch.no_grad():
    out = model(**data)

print(out.text_embeds @ out.image_embeds.T)

图像

请注意，我们的图像编码器与 OpenCLIP 相同。不像其他模态那样进行了微调。

import torch
from languagebind import LanguageBindImage,  LanguageBindImageTokenizer,  LanguageBindImageProcessor

pretrained_ckpt = 'LanguageBind/LanguageBind_Image'
model = LanguageBindImage.from_pretrained(pretrained_ckpt, cache_dir='./cache_dir')
tokenizer = LanguageBindImageTokenizer.from_pretrained(pretrained_ckpt, cache_dir='./cache_dir')
image_process = LanguageBindImageProcessor(model.config, tokenizer)

model.eval()
data = image_process([r"your/image.jpg"], ['your text.'], return_tensors='pt')
with torch.no_grad():
    out = model(**data)

print(out.text_embeds @ out.image_embeds.T)

📚 详细文档

🐳 模型库

表格中的名称代表不同的编码器模型。例如，LanguageBind/LanguageBind_Video_FT 代表完全微调版本，而 LanguageBind/LanguageBind_Video 代表 LoRA 微调版本。

你可以在推荐的 API 使用方法中自由替换它们。我们建议使用完全微调版本，因为它提供更强的性能。

模态	LoRA 微调	完全微调
视频	LanguageBind_Video	LanguageBind_Video_FT
音频	LanguageBind_Audio	LanguageBind_Audio_FT
深度	LanguageBind_Depth	-
热成像	LanguageBind_Thermal	-

版本	微调方式	模型大小	帧数	Hugging Face 链接	MSR - VTT	DiDeMo	ActivityNet	MSVD
LanguageBind_Video	LoRA	大	8	链接	42.6	37.8	35.1	52.2
LanguageBind_Video_FT	完全微调	大	8	链接	42.7	38.1	36.9	53.5
LanguageBind_Video_V1.5_FT	完全微调	大	8	链接	42.8	39.7	38.4	54.1
LanguageBind_Video_V1.5_FT	完全微调	大	12	即将推出	-	-	-	-
LanguageBind_Video_Huge_V1.5_FT	完全微调	超大	8	链接	44.8	39.9	41.0	53.7
LanguageBind_Video_Huge_V1.5_FT	完全微调	超大	12	即将推出	-	-	-	-

💥 VIDAL - 10M

数据集详情请参考 DATASETS.md。

🗝️ 训练与验证

训练和验证说明请参考 TRAIN_AND_VALIDATE.md。

👍 致谢

OpenCLIP 一个开源的预训练框架。
CLIP4Clip 一个开源的视频 - 文本检索框架。
sRGB - TIR 一个用于生成红外（热成像）图像的开源框架。
GLPN 一个用于生成深度图像的开源框架。

📄 许可证

本项目的大部分内容根据 LICENSE 文件中的 MIT 许可证发布。
本项目的数据集根据 DATASET_LICENSE 文件中的 CC - BY - NC 4.0 许可证发布。

✏️ 引用

如果您发现我们的论文和代码在您的研究中有用，请考虑给我们一个星星 :star: 并进行引用 :pencil:。

@misc{zhu2023languagebind,
      title={LanguageBind: Extending Video-Language Pretraining to N-modality by Language-based Semantic Alignment}, 
      author={Bin Zhu and Bin Lin and Munan Ning and Yang Yan and Jiaxi Cui and Wang HongFa and Yatian Pang and Wenhao Jiang and Junwu Zhang and Zongwei Li and Cai Wan Zhang and Zhifeng Li and Wei Liu and Li Yuan},
      year={2023},
      eprint={2310.01852},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}