C

Cosmos 1.0 Diffusion 7B Text2World

由 nvidia 开发
NVIDIA开发的基于扩散架构的多模态世界基础模型,能够根据文本输入生成高质量物理感知视频
下载量 5,011
发布时间 : 1/7/2025
模型介绍
内容详情
替代品

模型简介

Cosmos是专为生成物理感知视频和物理AI开发设计的高性能预训练世界基础模型系列,支持文本、图像或视频输入生成动态视频

模型特点

多模态输入支持
支持文本、图像或视频作为输入条件生成连贯视频序列
物理感知生成
生成的视频具有物理合理性,适合物理AI开发应用
商业友好许可
允许商用和创建衍生模型,NVIDIA不对输出内容主张所有权
安全护栏机制
内置安全组件防止不当内容生成,规避机制将导致许可终止

模型能力

文本到视频生成
视频预测(基于首帧)
多分辨率输出
可变帧率控制

使用案例

娱乐媒体
短视频内容生成
根据剧本描述自动生成短视频内容
5秒1280x704分辨率视频
物理模拟
物理现象预测
基于初始状态预测物体运动轨迹
120帧物理合理运动序列