M

Magma 8B

由 microsoft 开发
Magma是一个多模态AI智能体基础模型,能够处理图像和文本输入并生成文本输出,具备虚拟与现实环境中的复杂交互能力。
下载量 4,526
发布时间 : 2/23/2025
模型介绍
内容详情
替代品

模型简介

Magma是面向多模态AI智能体的基础模型,通过引入标记集合和标记轨迹技术,结合大量未标记视频数据学习时空定位与规划能力,适用于UI导航、机器人操作等多种智能任务。

模型特点

数字与物理世界交互
首个能同时处理虚拟与现实环境中复杂交互的多模态AI智能体模型
多功能统一架构
单一模型同时具备视觉理解、语言生成和动作规划能力
时空定位与规划
通过标记轨迹技术从视频数据学习时空定位能力
可扩展预训练
能从海量未标记视频中扩展学习,具备强大泛化能力

模型能力

图像理解
视频理解
文本生成
UI导航
机器人操作控制
游戏控制
空间推理
多模态交互

使用案例

智能设备交互
手机UI导航
根据语音指令自动操作手机界面
演示中成功完成天气查询和飞行模式设置
机器人控制
物品抓取
根据视觉输入控制机器人抓取特定物品
演示中成功抓取热狗香肠和蘑菇
游戏AI
游戏控制
通过视觉输入理解游戏状态并生成控制指令
在收集绿色方块任务中表现优于LLaVA和GPT4o-mini