DAM-3B-Video开源视觉语言模型 - 免费部署精确生成图像/视频局部描述

首页

DAM 3B Video

由 nvidia 开发

DAM-3B-Video是一个30亿参数的视觉语言模型，能够根据用户指定的图像/视频区域生成精细化局部描述。

图像生成文本

Safetensors

英语开源协议:其他 #局部区域描述 #多模态输入 #视频字幕生成

下载量 426

发布时间 : 4/21/2025

模型简介

该模型通过焦点提示机制和门控交叉注意力增强的局部视觉骨干网络，整合全图/视频上下文与细粒度局部细节，生成针对视觉区域的详细描述。

模型特点

精细化局部描述

能够针对用户以点/框/涂鸦/掩码形式指定的图像/视频区域生成详细描述

焦点提示机制

创新的焦点提示机制帮助模型集中注意力于用户指定的区域

门控交叉注意力增强

采用门控交叉注意力增强的局部视觉骨干网络，整合全局上下文与局部细节

多模态输入支持

支持图像、视频、文本和二值掩码等多种输入形式

模型能力

图像区域描述生成

视频区域描述生成

多模态输入处理

精细化局部特征识别

使用案例

科研应用

计算机视觉研究

用于视觉语言模型的研究和开发

非商业应用

教育演示

展示先进的视觉语言理解能力

🚀 描述一切：详细的局部图像和视频字幕生成

本项目由NVIDIA、加州大学伯克利分校和加州大学旧金山分校联合开展。它能够根据用户指定的图像或视频区域，生成详细的局部描述，为图像和视频理解提供了强大的工具。

项目成员包括Long Lian、Yifan Ding、Yunhao Ge、Sifei Liu、Hanzi Mao、Boyi Li、Marco Pavone、Ming-Yu Liu、Trevor Darrell、Adam Yala、Yin Cui。

[论文] | [代码] | [项目主页] | [视频] | [HuggingFace演示] | [模型/基准测试/数据集] | [引用]

🚀 快速开始

本项目旨在展示和促进对“描述一切”模型的理解与使用。它主要用于研究和非商业目的。

✨ 主要特性

详细局部描述：Describe Anything Model 3B Video (DAM-3B-Video) 可以接受用户以点、框、涂鸦、掩码等形式指定的图像或视频区域作为输入，并生成详细的局部描述。
创新架构：DAM 使用新颖的焦点提示和通过门控交叉注意力增强的局部视觉骨干网络，将全图像/视频上下文与细粒度的局部细节相结合。
非商业可用：该模型仅供研究和开发使用，可用于非商业用途。

📦 安装指南

文档未提供具体安装步骤，暂不展示。

💻 使用示例

文档未提供代码示例，暂不展示。

📚 详细文档

模型卡片：DAM-3B

描述

Describe Anything Model 3B Video (DAM-3B-Video) 接受用户以点、框、涂鸦、掩码等形式指定的图像或视频区域作为输入，并生成详细的局部描述。DAM 使用新颖的焦点提示和通过门控交叉注意力增强的局部视觉骨干网络，将全图像/视频上下文与细粒度的局部细节相结合。该模型仅供研究和开发使用，可用于非商业用途。

许可证

NVIDIA 非商业许可证

预期用途

本模型旨在展示和促进对“描述一切”模型的理解与使用。它主要用于研究和非商业目的。

模型架构

属性	详情
架构类型	Transformer
网络架构	ViT 和 Llama

本模型基于 VILA-1.5 开发，拥有 30 亿个模型参数。

输入

属性	详情
输入类型	图像、视频、文本、二进制掩码
输入格式	RGB 图像、RGB 视频、二进制掩码
输入参数	二维图像、二维视频、二维二进制掩码
其他输入相关属性	RGB 图像 3 通道，RGB 视频 3 通道，二进制掩码 1 通道。分辨率为 384x384。

输出

属性	详情
输出类型	文本
输出格式	字符串
输出参数	一维文本
其他输出相关属性	视觉区域的详细描述

支持的硬件微架构兼容性：

NVIDIA Ampere
NVIDIA Hopper
NVIDIA Lovelace

首选/支持的操作系统：

Linux

训练数据集

描述一切训练数据集

评估数据集

我们在详细的局部字幕基准测试 DLC-Bench 上评估我们的模型。

推理

使用 PyTorch 进行推理。

伦理考量

NVIDIA 认为可信 AI 是一项共同责任，我们已经制定了政策和实践，以支持广泛的 AI 应用开发。当按照我们的服务条款下载或使用时，开发者应与内部模型团队合作，确保该模型满足相关行业和用例的要求，并解决不可预见的产品滥用问题。

请在此报告安全漏洞或 NVIDIA AI 相关问题。

🔧 技术细节

文档未提供具体技术细节，暂不展示。

📄 许可证

本模型使用 NVIDIA 非商业许可证。

📖 引用

如果您使用了我们的工作或本仓库中的实现，或者认为它们有帮助，请考虑引用：

@article{lian2025describe,
  title={Describe Anything: Detailed Localized Image and Video Captioning}, 
  author={Long Lian and Yifan Ding and Yunhao Ge and Sifei Liu and Hanzi Mao and Boyi Li and Marco Pavone and Ming-Yu Liu and Trevor Darrell and Adam Yala and Yin Cui},
  journal={arXiv preprint arXiv:2504.16072},
  year={2025}
}