P

Poseless 3B

由 Menlo 开发
Poseless-3B 是一种基于视觉语言模型(VLM)的机器人手部控制框架,能够直接将2D图像映射到关节角度,无需显式姿态估计。
下载量 65
发布时间 : 3/3/2025
模型介绍
内容详情
替代品

模型简介

该模型利用投影表示和合成训练数据,实现了对真实场景的零样本泛化以及从机器人手到人手的跨形态迁移。通过投影视觉输入并采用基于Transformer的解码器,PoseLess在解决深度模糊性和数据稀缺等挑战的同时,实现了鲁棒、低延迟的控制。

模型特点

无深度视觉到关节控制
通过投影表示直接将2D图像映射到关节角度,无需显式姿态估计。
合成数据生成
利用随机关节配置生成的合成训练数据,减少对昂贵标注数据集的依赖。
跨形态泛化
仅通过机器人手数据训练即可模仿人手运动,展示了跨形态泛化能力。
低延迟控制
采用基于Transformer的解码器,实现鲁棒、低延迟的控制。

模型能力

图像到关节角度映射
机器人手部控制
跨形态泛化
无深度视觉处理

使用案例

机器人控制
机器人手部姿态控制
通过单目图像直接控制机器人手部的关节角度。
在不依赖任何人工标注数据集的情况下,模型在关节角度预测精度上具有竞争力。
人机交互
人手姿态模仿
通过机器人手数据训练,模仿人手的运动。
展示了模型在跨形态泛化方面的潜力。