数据集:
- nvidia/describe-anything-dataset
语言:
- en
基础模型:
- Efficient-Large-Model/VILA1.5-3b
任务标签: 图像文本到文本
许可证: other
许可证名称: nvidia-non-commercial-license
许可证链接: https://huggingface.co/nvidia/DAM-3B-Self-Contained/blob/main/LICENSE
库名称: describe-anything
描述万物:精细化局部图像与视频描述
NVIDIA, 加州大学伯克利分校, 加州大学旧金山分校
连龙, 丁一凡, 葛云皓, 刘思飞, 毛涵梓, 李博一, Marco Pavone, 刘明宇, Trevor Darrell, Adam Yala, 崔茵
[论文] | [代码] | [项目页] | [视频] | [HuggingFace演示] | [模型/基准/数据集] | [引用]
使用此独立模型进行推理的示例代码:
import torch
import numpy as np
from PIL import Image
from transformers import SamModel, SamProcessor, AutoModel
import cv2
import requests
from io import BytesIO
DAM-3B模型卡
描述
描述万物模型3B(DAM-3B)接收用户以点/框/涂鸦/掩码形式指定的图像区域,生成精细的局部图像描述。该模型通过新颖的焦点提示和带有门控交叉注意力的局部视觉骨干网络,整合全图上下文与细粒度局部细节。本模型仅供研究开发使用,允许非商业用途。
许可证
NVIDIA非商业许可证
预期用途
本模型旨在演示和促进描述万物模型的理解与使用,主要用于研究和非商业目的。
模型架构
架构类型: Transformer
网络架构: ViT和Llama
本模型基于VILA-1.5开发。
模型参数量为30亿。
输入
输入类型: 图像、文本、二值掩码
输入格式: RGB图像、二值掩码
输入参数: 二维图像、二维二值掩码
其他输入属性: RGB图像3通道,二值掩码1通道。分辨率384x384。
输出
输出类型: 文本
输出格式: 字符串
输出参数: 一维文本
其他输出属性: 视觉区域的详细描述。
支持的硬件微架构兼容性:
- NVIDIA安培架构
- NVIDIA霍珀架构
- NVIDIA拉芙莱斯架构
首选/支持的操作系统:
训练数据集
描述万物训练数据集
评估数据集
我们在精细化局部描述基准DLC-Bench上评估模型。
推理框架
PyTorch
伦理考量
NVIDIA认为可信AI是共同责任,我们已建立政策与实践来支持广泛AI应用开发。开发者下载或使用本模型时,应确保其符合相关行业要求并防范产品滥用风险。
请通过此链接报告安全问题或AI伦理关切。
引用
如果您使用我们的工作或本仓库实现,请考虑引用:
@article{lian2025describe,
title={描述万物:精细化局部图像与视频描述},
author={连龙 and 丁一凡 and 葛云皓 and 刘思飞 and 毛涵梓 and 李博一 and Marco Pavone and 刘明宇 and Trevor Darrell and Adam Yala and 崔茵},
journal={arXiv预印本 arXiv:2504.16072},
year={2025}
}