合成数据泛化

# 合成数据泛化

Sapiens Pose 0.6b

Sapiens 是一个基于 3 亿张高分辨率人类图像预训练的视觉 Transformer 模型家族，专注于以人为中心的视觉任务。

姿态估计英语

Sapiens Depth 0.3b Bfloat16

Sapiens是一个在3亿张1024x1024分辨率的人类图像上预训练的视觉变换器系列模型，专注于以人为中心的视觉任务。

Sapiens Depth 1b Bfloat16

Sapiens 是一个在3亿张1024x1024分辨率的人像图片上预训练的视觉Transformer模型，专注于以人为中心的视觉任务。

Sapiens Depth 2b Bfloat16

Sapiens-2B是基于3亿张高分辨率人体图像预训练的视觉Transformer模型，专门针对人体深度估计任务优化，支持1K分辨率推理并具有优秀的真实场景泛化能力。

Sapiens Seg 0.6b Bfloat16

Sapiens是一个基于3亿张1024x1024分辨率人类图像预训练的视觉Transformer模型家族，专注于以人为中心的视觉任务。

图像分割英语

Sapiens Seg 1b Bfloat16

Sapiens是基于3亿张高分辨率人类图像预训练的视觉Transformer模型，专注于以人为中心的视觉任务

图像分割英语

Sapiens Pose 1b Bfloat16

Sapiens是一个基于3亿张1024x1024分辨率人类图像预训练的视觉变换器系列模型，专注于以人为中心的视觉任务。

姿态估计英语

Sapiens Pretrain 1b Bfloat16

Sapiens是基于3亿张1024×1024分辨率人体图像预训练的视觉Transformer模型，支持高分辨率推理和真实场景泛化。

图像分类英语

Sapiens Pretrain 2b Bfloat16

Sapiens 是一个基于3亿张1024x1024分辨率人类图像预训练的视觉Transformer模型家族，支持高分辨率推理和真实场景泛化。

图像分类英语

Sapiens Depth 0.3b

智人（Sapiens）是基于3亿张高分辨率人类图像预训练的视觉Transformer模型，专注于以人为中心的视觉任务。

Sapiens Depth 0.6b

Sapiens是一个基于3亿张1024x1024分辨率人类图像预训练的视觉Transformer模型家族，专注于以人为中心的视觉任务。

Sapiens Depth 2b

Sapiens是一个基于3亿张1024×1024分辨率人类图像预训练的视觉Transformer模型家族，专注于以人为中心的视觉任务。

Sapiens Seg 0.3b

Sapiens是一个基于3亿张1024×1024分辨率人类图像预训练的视觉Transformer模型家族，专注于以人为中心的视觉任务。

图像分割英语

Sapiens Seg 0.6b

Sapiens是一个基于3亿张1024x1024分辨率人类图像预训练的视觉Transformer模型家族，专注于以人为中心的视觉任务。

图像分割英语

Sapiens是基于3亿张人类图像预训练的视觉Transformer模型，专注于以人为中心的分割任务，支持1K高分辨率推理。

图像分割英语

Sapiens Pose 1b

Pose-Sapiens-1B 是一个基于视觉 Transformer 架构的高分辨率人体姿态估计模型，在 3 亿张 1024x1024 分辨率的人类图像上预训练，支持 308 个关键点检测（身体、面部、手部和足部）。

姿态估计英语

Sapiens Pretrain 0.3b

Sapiens是基于3亿张高分辨率人类图像预训练的视觉Transformer模型，专为以人为中心的视觉任务设计。

图像分类英语

Sapiens Pretrain 0.6b

Sapiens是基于3亿张1024×1024分辨率人体图像预训练的视觉Transformer模型，擅长以人为中心的视觉任务。

图像分类英语

Sapiens Pretrain 1b

Sapiens是基于3亿张高分辨率人类图像预训练的视觉Transformer模型，专注于以人为中心的视觉任务。

人脸相关英语

Sapiens Pretrain 2b

Sapiens-2B是基于3亿张高分辨率人类图像预训练的视觉Transformer模型，专为以人为中心的视觉任务设计，具有卓越的泛化能力。

人脸相关英语

Sapiens Depth 0.6b Torchscript

Sapiens 是一个基于 3 亿张 1024 x 1024 分辨率人类图像预训练的视觉变换器系列模型，专注于以人为中心的视觉任务。

Sapiens Depth 2b Torchscript

Sapiens是基于3亿张1024×1024分辨率人体图像预训练的视觉Transformer模型，专为人体中心视觉任务设计，具有卓越的泛化能力。

Sapiens Seg 0.6b Torchscript

Sapiens是一个基于3亿张1024x1024分辨率人类图像预训练的视觉Transformer模型家族，专注于以人为中心的视觉任务。

图像分割英语

Sapiens Seg 1b Torchscript

Sapiens是基于3亿张1024×1024分辨率人体图像预训练的视觉变换器系列，专为人体中心视觉任务设计，具有卓越的泛化能力。

图像分割英语

Sapiens Pose 1b Torchscript

Sapiens是基于3亿张1024x1024分辨率人体图像预训练的视觉Transformer模型，专为高精度姿态估计任务设计。

姿态估计英语

Sapiens Pretrain 1b Torchscript

Sapiens是一个在3亿张1024x1024分辨率人类图像上预训练的视觉Transformer家族，专为以人为中心的视觉任务设计。

图像分类英语

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24