D

DAM 3B

由 nvidia 开发
DAM-3B是一个30亿参数的视觉语言模型,能够根据用户指定的图像区域生成精细化局部描述。
下载量 1,417
发布时间 : 4/21/2025
模型介绍
内容详情
替代品

模型简介

该模型接收用户以点/框/涂鸦/掩码形式指定的图像区域输入,生成图像的精细化局部描述。通过创新的焦点提示机制和采用门控交叉注意力增强的局部视觉骨干网络,整合全图上下文与细粒度局部细节。

模型特点

精细化局部描述
能够针对用户指定的任意图像区域生成详细描述
多形式区域指定
支持点、框、涂鸦、掩码等多种形式指定关注区域
焦点提示机制
创新的注意力机制整合全图上下文与局部细节
门控交叉注意力
增强的局部视觉骨干网络提升描述质量

模型能力

图像区域描述生成
多形式区域输入处理
细粒度视觉理解

使用案例

计算机视觉研究
精细化图像理解
用于研究模型对图像局部细节的理解能力
辅助技术
视觉辅助描述
为视障人士提供图像特定区域的详细描述