D

DAM 3B Self Contained

由 nvidia 开发
DAM-3B是一个能够根据用户指定的图像区域(点/框/涂鸦/掩码)生成精细化局部描述的视觉语言模型。
下载量 824
发布时间 : 4/21/2025
模型介绍
内容详情
替代品

模型简介

该模型通过焦点提示和局部视觉骨干网络整合全图上下文与细粒度局部细节,用于生成图像的精细化局部描述。

模型特点

精细化局部描述
能够根据用户指定的图像区域生成详细的局部描述
多模态输入支持
支持点、框、涂鸦和掩码等多种形式的区域指定方式
上下文整合
通过焦点提示和门控交叉注意力机制整合全图上下文与局部细节

模型能力

图像区域描述生成
多模态输入处理
精细化视觉理解

使用案例

计算机视觉
图像标注
为图像中的特定区域生成详细描述
提高图像标注的精确度和细节
视觉辅助
为视障人士提供图像内容的详细描述
增强视觉信息的可访问性