L

Languagebind Audio FT

由 LanguageBind 开发
LanguageBind是一种以语言为中心的多模态预训练方法,通过语言作为不同模态间的纽带实现语义对齐。
下载量 12.59k
发布时间 : 11/26/2023
模型介绍
内容详情
替代品

模型简介

LanguageBind通过基于语言的语义对齐将视频-语言预训练扩展至N模态,支持视频、音频、深度、热成像等多种模态的联合学习。

模型特点

语言为中心的多模态对齐
将语言作为不同模态间的纽带,实现视频、音频、深度等多模态的语义对齐
海量多模态数据集
使用VIDAL-10M数据集,包含1000万视频、红外、深度、音频及其对应语言数据
多视角增强描述训练
通过元数据、空间和时间信息生成多视角描述,并利用ChatGPT增强语言语义

模型能力

视频-语言检索
音频-语言检索
深度-语言检索
热成像-语言检索
跨模态语义相似度计算

使用案例

视频理解
视频内容检索
根据文本描述检索相关视频片段
在MSR-VTT数据集上达到42.7%的准确率
音频分析
音频事件检测
通过文本描述识别音频中的事件
在多个音频数据集上达到SOTA性能