sapiens-pretrain-0.6b开源模型 - 基于大量人体图像预训练，专注以人为中心视觉任务

首页

Sapiens Pretrain 0.6b

由 facebook 开发

Sapiens是基于3亿张1024×1024分辨率人体图像预训练的视觉Transformer模型，擅长以人为中心的视觉任务。

图像分类英语#高分辨率人体视觉 #合成数据泛化 #1K图像处理

下载量 13

发布时间 : 9/10/2024

模型简介

6亿参数视觉Transformer模型，原生支持1K高分辨率推理，在标注数据稀缺或完全合成的情况下仍能对真实数据展现卓越泛化能力。

模型特点

高分辨率支持

原生支持1024×1024分辨率图像处理

数据高效

在标注数据稀缺或完全合成数据情况下仍能良好泛化

大规模预训练

基于3亿张人体图像进行预训练

模型能力

人体图像特征提取

高分辨率图像处理

视觉表示学习

使用案例

计算机视觉

人体姿态估计

从高分辨率图像中提取人体姿态特征

虚拟形象生成

用于生成逼真的数字人形象

🚀 Pretrain-Sapiens-0.6B

Pretrain-Sapiens-0.6B是一个预训练的视觉变换器模型，在3亿张1024 x 1024分辨率的人类图像上进行训练。该模型在以人类为中心的视觉任务微调后，能很好地泛化到自然场景中。

🚀 快速开始

Pretrain-Sapiens-0.6B预训练模型可用于特征提取、微调，或作为训练新模型的起点。

✨ 主要特性

Sapiens系列模型在3亿张1024 x 1024分辨率的人类图像上进行预训练。
预训练模型在以人类为中心的视觉任务上微调后，能很好地泛化到自然场景中。
Sapiens-0.6B原生支持1K高分辨率推理。
即使在标记数据稀缺或完全合成的情况下，模型对自然数据也有出色的泛化能力。

📚 详细文档

模型详情

Sapiens是一系列视觉变换器模型，在3亿张1024 x 1024分辨率的人类图像上进行预训练。这些预训练模型在以人类为中心的视觉任务上进行微调后，能够很好地泛化到自然场景中。 Sapiens-0.6B原生支持1K高分辨率推理。最终的模型对自然数据表现出显著的泛化能力，即使标记数据稀缺或完全合成时也是如此。

属性	详情
开发者	Meta
模型类型	视觉变换器
许可证	知识共享署名 - 非商业性使用 4.0 国际许可协议
任务	预训练
格式	原始格式
文件	sapiens_0.6b_epoch_1600_clean.pth