A

Align Base

由 kakaobrain 开发
ALIGN是一个视觉-语言双编码器模型,通过对比学习实现图像与文本表征的对齐,利用大规模噪声数据实现先进的跨模态表征效果。
下载量 78.28k
发布时间 : 2/24/2023
模型介绍
内容详情
替代品

模型简介

ALIGN采用EfficientNet作为视觉编码器,BERT作为文本编码器,通过对比学习在COYO-700M数据集上训练,支持零样本图像分类和多模态嵌入检索。

模型特点

噪声数据训练
利用海量噪声图文对数据(COYO-700M),证明简单方法结合大规模数据可实现最先进的表征效果
双编码器架构
视觉与文本分支独立编码,通过对比损失实现模态对齐,兼顾效率与灵活性
丰富元数据支持
基于COYO数据集训练,提供美学评分、水印检测、人脸计数等元数据,增强下游应用控制能力

模型能力

零样本图像分类
图文相似度计算
跨模态嵌入检索
多模态表征学习

使用案例

图像理解
零样本图像分类
无需微调即可对任意类别图像进行分类
在标准基准测试中达到与专用分类模型相当的性能
跨模态检索
图文匹配
检索与文本描述最相关的图像,或为图像生成匹配文本