L

Languagebind Video

由 LanguageBind 开发
LanguageBind是一种通过语言语义对齐将视频-语言预训练扩展至N模态的多模态预训练框架,被ICLR 2024收录。
下载量 166
发布时间 : 10/6/2023

模型简介

LanguageBind采用以语言为核心的多模态预训练框架,通过语言桥接不同模态,充分利用语言模态语义丰富的特性。

模型特点

高性能免中间模态
通过语言桥接不同模态,充分利用语言模态语义丰富的特性,可轻松扩展至分割、检测等任务,理论上支持无限模态扩展。
多模态全对齐海量数据集
发布VIDAL-10M数据集,包含1000万条视频、红外、深度、音频与语言数据,极大拓展了视觉模态边界。
多视角语言增强
创新性提出融合元数据、空间、时序的多视角语言描述方法,并通过ChatGPT强化语义,为各模态构建优质语义对齐空间。

模型能力

多模态语义对齐
视频理解
音频理解
红外图像理解
深度图像理解
语言语义增强

使用案例

视频理解
视频内容分析
通过视频与语言的语义对齐,实现对视频内容的深度理解。
在多个视频理解任务上达到业界最佳性能。
音频理解
音频内容分析
通过音频与语言的语义对齐,实现对音频内容的深度理解。
在5个数据集上达到业界最佳性能。
AIbase
智启未来,您的人工智能解决方案智库
简体中文