H

Hiera Abswin Base Mim

由 birder-project 开发
采用绝对窗口位置嵌入策略的Hiera图像编码器,通过掩码图像建模(MIM)预训练,可作为通用特征提取器或下游任务的骨干网络。
下载量 72
发布时间 : 3/20/2025
模型介绍
内容详情
替代品

模型简介

该模型是一个基于Hiera架构的图像编码器,采用绝对窗口位置嵌入策略,通过掩码图像建模(MIM)进行预训练。它未针对特定分类任务进行微调,旨在作为通用特征提取器或下游任务(如目标检测、分割或自定义分类)的骨干网络使用。

模型特点

绝对窗口位置嵌入
采用创新的绝对窗口位置嵌入策略,解决了传统窗口注意力机制中位置嵌入插值的问题
层次化视觉Transformer
基于Hiera架构,通过去芜存菁的方式实现高效的层次化视觉特征提取
多源训练数据
使用包含1200万张多样化图像的混合数据集进行训练,涵盖多个公开数据集和私有鸟类数据集
多任务适用性
可作为通用特征提取器或下游任务(如检测、分割)的骨干网络使用

模型能力

图像特征提取
目标检测特征提取
图像分割特征提取
鸟类识别特征提取

使用案例

计算机视觉
鸟类识别
利用模型提取的特征进行鸟类分类和识别
目标检测
作为骨干网络用于目标检测任务
图像分割
作为骨干网络用于图像分割任务