机器人控制
Pi0fast Base
Apache-2.0
π0+FAST 是一种面向机器人技术的高效动作标记化方案,由Physical Intelligence设计,适用于视觉-语言-动作任务。
多模态融合
Safetensors
P
lerobot
1,372
12
STEVE R1 7B SFT I1 GGUF
Apache-2.0
这是对Fanbin/STEVE-R1-7B-SFT模型进行的加权/矩阵量化版本,适用于资源受限环境。
文本生成图像
英语
S
mradermacher
394
0
Magma 8B
MIT
Magma是一个多模态AI智能体基础模型,能够处理图像和文本输入并生成文本输出,具备虚拟与现实环境中的复杂交互能力。
图像生成文本
Transformers
M
microsoft
4,526
363
Pi0
Apache-2.0
Pi0是一个通用机器人控制的视觉-语言-动作流模型,支持机器人控制任务。
多模态融合
P
lerobot
11.84k
230
Minivla History2 Vq Libero90 Prismatic
MIT
MiniVLA是一个更小体积但性能优异的视觉语言动作模型,兼容Prismatic VLMs训练脚本,适用于机器人技术和多模态任务。
图像生成文本
Transformers
英语
M
Stanford-ILIAD
22
1
Crossformer
MIT
CrossFormer 是一个适用于操作、导航、移动和航空的统一策略模型,旨在跨具身学习中进行规模化应用。
多模态融合
C
rail-berkeley
48
7
Vqbet Pusht
Apache-2.0
VQ-BeT是针对PushT环境训练的行为生成模型,基于潜在动作原理设计
图像生成
Transformers
V
lerobot
68
4
Openvla 7b
MIT
OpenVLA 7B是一个基于Open X-Embodiment数据集训练的开源视觉-语言-动作模型,能够根据语言指令和摄像头图像生成机器人动作。
图像生成文本
Transformers
英语
O
openvla
1.7M
108
Hpt Base
HPT是一种将不同实体对齐到共享潜在空间的变换器模型,专注于策略学习中的扩展行为研究。
多模态对齐
Transformers
H
liruiw
70
10