许可证: mit
语言:
- en
任务标签: 机器人技术
库名称: transformers
标签:
- 机器人技术
- pytorch
- 多模态
- 预训练
- 视觉语言动作
- 扩散模型
- RDT
RDT-10亿参数模型

RDT-10亿参数模型是一个基于100万+多机器人操作数据预训练的10亿参数模仿学习扩散Transformer模型。给定语言指令和最多三个视角的RGB图像,RDT能够预测接下来的64个机器人动作。该模型兼容几乎所有现代移动机械臂,包括单臂/双臂、关节空间/末端执行器空间、位置控制/速度控制,甚至轮式移动平台。
所有代码、预训练模型权重和数据集均采用MIT许可证授权。
更多信息请访问项目主页和论文。
模型详情
- 开发团队: 清华大学TSAIL组研究团队
- 任务类型: 视觉-语言-动作(语言+图像→机器人动作)
- 模型架构: 基于Transformer的扩散策略模型
- 许可证: MIT
- 支持语言: 英语(en)
- 多模态编码器:
- 预训练数据集: 包含46个数据集,涵盖RT-1、RH20T、DROID、BridgeData V2、RoboSet及Open X-Embodiment子集。完整列表见此处。
- 代码仓库: https://github.com/thu-ml/RoboticsDiffusionTransformer
- 论文: https://arxiv.org/pdf/2410.07864
- 项目主页: https://rdt-robotics.github.io/rdt-robotics/
使用说明
RDT接收语言指令、RGB图像(最多三个视角)、控制频率(可选)和本体感知信息作为输入,预测未来64个机器人动作。通过统一动作空间设计,该模型支持控制几乎所有机械臂系统,涵盖末端执行器/关节空间、位置/速度控制以及轮式运动等物理量。部署时需将原始动作向量映射到统一空间向量,详见代码仓库。
使用限制: 由于本体差异,模型暂不支持预训练数据未见过的新型机器人平台。建议针对目标机器人采集小规模数据集进行微调,教程参见代码仓库。
以下为RDT-10亿参数模型的推理示例:
from scripts.agilex_model import create_model
CAMERA_NAMES = ['cam_high', 'cam_right_wrist', 'cam_left_wrist']
config = {
'episode_len': 1000,
'state_dim': 14,
'chunk_size': 64,
'camera_names': CAMERA_NAMES,
}
pretrained_vision_encoder_name_or_path = "google/siglip-so400m-patch14-384"
model = create_model(
args=config,
dtype=torch.bfloat16,
pretrained_vision_encoder_name_or_path=pretrained_vision_encoder_name_or_path,
pretrained='robotics-diffusion-transformer/rdt-1b',
control_frequency=25,
)
lang_embeddings_path = 'your/language/embedding/path'
text_embedding = torch.load(lang_embeddings_path)['embeddings']
images: List(PIL.Image) = ...
proprio = ...
actions = policy.step(
proprio=proprio,
images=images,
text_embeds=text_embedding
)
引用
如果我们的工作对您有帮助,请引用:
@article{liu2024rdt,
title={RDT-1B: a Diffusion Foundation Model for Bimanual Manipulation},
author={Liu, Songming and Wu, Lingxuan and Li, Bangguo and Tan, Hengkai and Chen, Huayu and Wang, Zhengyi and Xu, Ke and Su, Hang and Zhu, Jun},
journal={arXiv preprint arXiv:2410.07864},
year={2024}
}
感谢支持!