开源rdt - 1b模型：基于百万数据，支持多视角视觉语言动作预测

首页

Rdt 1b

由 robotics-diffusion-transformer 开发

基于100万+多机器人操作数据预训练的10亿参数模仿学习扩散Transformer模型，支持多视角视觉语言动作预测

多模态融合

Transformers

英语开源协议:MIT #多模态机器人控制 #扩散Transformer #多视角视觉指令

下载量 2,644

发布时间 : 8/27/2024

模型简介

该模型能够根据语言指令和多视角RGB图像预测未来64个机器人动作，兼容多种现代移动机械臂系统

模型特点

多模态输入支持

同时处理语言指令和多达三个视角的RGB图像输入

通用机器人兼容性

支持单臂/双臂、关节/末端执行器空间、位置/速度控制等多种机器人平台

大规模预训练

基于100万+机器人操作数据和46个公开数据集训练

长序列动作预测

能够预测未来64个连续机器人动作

模型能力

视觉语言理解

机器人动作序列预测

多视角图像处理

跨平台机器人控制

使用案例

工业自动化

装配线操作

根据语言指令完成零件抓取和装配任务

实现精确的连续动作控制

服务机器人

家庭物品整理

根据语音指令识别和整理家居物品

完成复杂的多步骤操作序列

🚀 RDT-1B

RDT-1B是一个拥有10亿参数的模仿学习扩散变换器（Diffusion Transformer）模型，在100多万个多机器人情节上进行了预训练。给定语言指令和最多三个视角的RGB图像，RDT可以预测接下来的64个机器人动作。RDT几乎与所有现代移动操作机器人兼容，涵盖单臂到双臂、关节到末端执行器、位置到速度，甚至轮式移动等多种类型。

所有代码、预训练模型权重和数据均遵循MIT许可证。

更多信息请参考我们的项目页面和论文。

🚀 快速开始

RDT-1B的使用涉及代码克隆、依赖安装、模型创建和推理等步骤。以下是一个简单的使用流程概述：

克隆代码仓库并安装依赖。
切换到仓库根目录。
导入模型创建函数。
配置模型参数。
创建模型。
加载预计算的语言嵌入。
准备图像和机器人状态数据。
进行推理以预测接下来的64个动作。

具体代码示例请参考“💻 使用示例”部分。

✨ 主要特性

强大的预测能力：给定语言指令和最多三个视角的RGB图像，RDT可以预测接下来的64个机器人动作。
广泛的兼容性：几乎与所有现代移动操作机器人兼容，包括单臂到双臂、关节到末端执行器、位置到速度，甚至轮式移动等多种类型。
多模态编码器：采用了强大的视觉骨干网络和语言模型，能够有效处理视觉和语言信息。
预训练数据集丰富：在46个数据集上进行了预训练，包括多个知名的机器人数据集。

📦 安装指南

文档中未提及具体的安装步骤，你可以访问代码仓库获取详细的安装说明。

💻 使用示例

基础用法

# 请先克隆仓库并安装依赖
# 然后通过 "cd RoboticsDiffusionTransformer" 切换到仓库根目录

# 从代码库中导入创建函数
from scripts.agilex_model import create_model

# 用于视觉输入的相机名称
CAMERA_NAMES = ['cam_high', 'cam_right_wrist', 'cam_left_wrist']
config = {
    'episode_len': 1000,  # 一个情节的最大长度
    'state_dim': 14,      # 机器人状态的维度
    'chunk_size': 64,     # 一步中要预测的动作数量
    'camera_names': CAMERA_NAMES,
}
pretrained_vision_encoder_name_or_path = "google/siglip-so400m-patch14-384" 
# 使用指定的配置创建模型
model = create_model(
    args=config,
    dtype=torch.bfloat16, 
    pretrained_vision_encoder_name_or_path=pretrained_vision_encoder_name_or_path,
    pretrained='robotics-diffusion-transformer/rdt-1b',
    control_frequency=25,
)

# 开始推理过程
# 加载预计算的语言嵌入
# 关于如何编码语言指令，请参考 scripts/encode_lang.py
lang_embeddings_path = 'your/language/embedding/path'
text_embedding = torch.load(lang_embeddings_path)['embeddings']  
images: List(PIL.Image) = ... #  最后两帧的图像
proprio = ... # 当前机器人状态
# 进行推理以预测接下来的 `chunk_size` 个动作
actions = policy.step(
    proprio=proprio,
    images=images,
    text_embeds=text_embedding 
)

高级用法

文档中未提及高级用法的相关内容，你可以访问代码仓库获取更多信息。

📚 详细文档

模型详情

属性	详情
开发者	由来自清华大学TSAIL小组的研究人员组成的RDT团队
任务类型	视觉 - 语言 - 动作（语言、图像 => 机器人动作）
模型类型	基于变换器的扩散策略
许可证	MIT
语言（NLP）	英语
多模态编码器	视觉骨干网络：siglip-so400m-patch14-384；语言模型：t5-v1_1-xxl
预训练数据集	由46个数据集组成，包括RT - 1数据集、RH20T、DROID、BridgeData V2、RoboSet和Open X - Embodiment的一个子集。详细列表请见此链接
代码仓库	https://github.com/thu-ml/RoboticsDiffusionTransformer
论文	https://arxiv.org/pdf/2410.07864
项目页面	https://rdt-robotics.github.io/rdt-robotics/

使用说明

RDT以语言指令、RGB图像（最多三个视角）、控制频率（如果有）和本体感觉作为输入，预测接下来的64个机器人动作。借助统一动作空间，RDT支持控制几乎所有机器人操作器，该空间包含了机器人操作器的所有主要物理量（例如，末端执行器和关节、位置和速度，甚至轮式移动）。要在你的机器人平台上部署，你需要将原始动作向量的相关量填充到统一空间向量中。更多信息请参考我们的代码仓库。

⚠️ 重要提示

由于具身差距，RDT目前还不能泛化到新的机器人平台（预训练数据集中未出现过的）。在这种情况下，我们建议收集目标机器人的小数据集，然后用它对RDT进行微调。具体教程请参考我们的代码仓库。

引用说明

如果你发现我们的工作有帮助，请引用我们：

@article{liu2024rdt,
  title={RDT-1B: a Diffusion Foundation Model for Bimanual Manipulation},
  author={Liu, Songming and Wu, Lingxuan and Li, Bangguo and Tan, Hengkai and Chen, Huayu and Wang, Zhengyi and Xu, Ke and Su, Hang and Zhu, Jun},
  journal={arXiv preprint arXiv:2410.07864},
  year={2024}
}

感谢使用！