V

VL3 SigLIP NaViT

由 DAMO-NLP-SG 开发
VideoLLaMA3的视觉编码器,采用任意分辨率视觉标记化(AVT)技术,动态处理不同分辨率的图像和视频。
下载量 25.55k
发布时间 : 1/21/2025
模型介绍
内容详情
替代品

模型简介

本模型作为VideoLLaMA3的视觉编码器,采用2D-RoPE技术处理不同分辨率的图像和视频,为视觉标记注入更多信息。

模型特点

任意分辨率视觉标记化(AVT)
动态处理不同分辨率的图像和视频,通过2D-RoPE技术实现
多模态支持
能够处理图像和视频数据,为多模态大语言模型提供视觉特征
高性能视觉编码
在多个基准测试中表现优异,特别是在文档理解任务上

模型能力

图像特征提取
视频特征提取
多模态数据处理
高分辨率图像处理

使用案例

视觉问答
文档理解
解析和理解文档图像中的内容
在DocVQA验证集上达到31.32的准确率
图表理解
分析和解释图表图像中的信息
在ChartQA数据集上达到22.44的准确率
多模态大语言模型
VideoLLaMA3视觉编码
作为VideoLLaMA3的视觉前端,处理输入图像和视频