D

DAM 3B Video

由 nvidia 开发
DAM-3B-Video是一个30亿参数的视觉语言模型,能够根据用户指定的图像/视频区域生成精细化局部描述。
下载量 426
发布时间 : 4/21/2025
模型介绍
内容详情
替代品

模型简介

该模型通过焦点提示机制和门控交叉注意力增强的局部视觉骨干网络,整合全图/视频上下文与细粒度局部细节,生成针对视觉区域的详细描述。

模型特点

精细化局部描述
能够针对用户以点/框/涂鸦/掩码形式指定的图像/视频区域生成详细描述
焦点提示机制
创新的焦点提示机制帮助模型集中注意力于用户指定的区域
门控交叉注意力增强
采用门控交叉注意力增强的局部视觉骨干网络,整合全局上下文与局部细节
多模态输入支持
支持图像、视频、文本和二值掩码等多种输入形式

模型能力

图像区域描述生成
视频区域描述生成
多模态输入处理
精细化局部特征识别

使用案例

科研应用
计算机视觉研究
用于视觉语言模型的研究和开发
非商业应用
教育演示
展示先进的视觉语言理解能力