L

Languagebind Video Merge

由 LanguageBind 开发
LanguageBind是一种通过基于语言的语义对齐将视频-语言预训练扩展至N模态的多模态模型,获得了ICLR 2024的接收。
下载量 10.96k
发布时间 : 11/21/2023
模型介绍
内容详情
替代品

模型简介

LanguageBind采用以语言为核心的多模态预训练方法,通过语言绑定不同模态,支持视频、音频、深度、热成像等多种模态的语义对齐。

模型特点

语言为核心的多模态对齐
通过语言模态作为桥梁,实现视频、音频、深度、热成像等多种模态的语义对齐
海量多模态数据集
提供VIDAL-10M数据集,包含1000万跨视频、红外、深度、音频及其对应语言的数据
多视角增强描述训练
对语言进行多视角增强,融合元数据、空间与时间信息,并用ChatGPT增强语言描述

模型能力

视频-语言语义对齐
音频-语言语义对齐
深度图像-语言语义对齐
热成像-语言语义对齐
跨模态相似度计算

使用案例

视频理解
视频检索
通过文本查询检索相关视频内容
在MSR-VTT数据集上达到44.8的零样本检索准确率
音频分析
音频事件检测
识别音频中的特定事件或声音
在5个音频数据集上取得SOTA性能
特殊视觉模态处理
热成像分析
理解热成像图像的内容和语义
深度图像理解
解析深度图像中的场景和对象