DINOv2-large开源视觉模型 - 免费从海量图像提取鲁棒视觉特征

首页

Dinov2 Large

由 facebook 开发

基于DINOv2方法训练的视觉Transformer模型，通过自监督学习从海量图像数据中提取鲁棒视觉特征

图像分类

Transformers

开源协议:Apache-2.0 #自监督视觉特征 #全局图像表征 #Transformer架构

下载量 558.78k

发布时间 : 7/17/2023

模型简介

该模型采用Transformer编码器架构，通过自监督方式预训练，能够学习图像的内在表征，适用于各种计算机视觉下游任务的特征提取

模型特点

自监督学习

无需人工标注数据，通过自监督方式从海量图像中学习特征

鲁棒视觉特征

能够提取适用于多种下游任务的通用视觉特征

Transformer架构

基于先进的Transformer编码器结构，有效处理图像数据

模型能力

图像特征提取

视觉表征学习

计算机视觉任务基础模型

使用案例

计算机视觉

图像分类

在预训练模型基础上添加分类头进行微调

目标检测

作为特征提取器用于目标检测任务

图像相似度计算

利用提取的特征向量计算图像相似度

🚀 基于DINOv2训练的视觉变换器（大型模型）

本项目是使用DINOv2方法训练的视觉变换器（ViT）模型。该方法由Oquab等人在论文 DINOv2: Learning Robust Visual Features without Supervision 中提出，并首次在此仓库中发布。

声明：发布DINOv2的团队并未为此模型编写模型卡片，此模型卡片由Hugging Face团队编写。

🚀 快速开始

本模型可用于图像特征提取，你可以在模型中心查找针对特定任务微调后的版本。

✨ 主要特性

自监督预训练：视觉变换器（ViT）是一种类似BERT的变换器编码器模型，以自监督的方式在大量图像集上进行预训练。
特征提取能力：通过预训练，模型学习到图像的内在表示，可用于提取对下游任务有用的特征。
无微调头部：此模型不包含任何微调后的头部。

📚 详细文档

模型描述

视觉变换器（ViT）是一种变换器编码器模型（类似BERT），以自监督的方式在大量图像集上进行预训练。

图像以固定大小的图像块序列形式输入到模型中，并进行线性嵌入。同时，在序列开头添加一个 [CLS] 标记，用于分类任务。在将序列输入到变换器编码器的各层之前，还会添加绝对位置嵌入。

需要注意的是，此模型不包含任何微调后的头部。

通过对模型进行预训练，它学习到图像的内在表示，这些表示可用于提取对下游任务有用的特征。例如，如果你有一个带标签的图像数据集，可以在预训练的编码器之上添加一个线性层，训练一个标准的分类器。通常会在 [CLS] 标记之上添加一个线性层，因为该标记的最后隐藏状态可以看作是整个图像的表示。

预期用途和局限性

你可以使用原始模型进行特征提取。可在模型中心查找针对你感兴趣的任务进行微调后的版本。

💻 使用示例

基础用法

from transformers import AutoImageProcessor, AutoModel
from PIL import Image
import requests

url = 'http://images.cocodataset.org/val2017/000000039769.jpg'
image = Image.open(requests.get(url, stream=True).raw)

processor = AutoImageProcessor.from_pretrained('facebook/dinov2-large')
model = AutoModel.from_pretrained('facebook/dinov2-large')

inputs = processor(images=image, return_tensors="pt")
outputs = model(**inputs)
last_hidden_states = outputs.last_hidden_state

📄 许可证

本项目采用Apache-2.0许可证。

BibTeX引用

misc{oquab2023dinov2,
      title={DINOv2: Learning Robust Visual Features without Supervision}, 
      author={Maxime Oquab and Timothée Darcet and Théo Moutakanni and Huy Vo and Marc Szafraniec and Vasil Khalidov and Pierre Fernandez and Daniel Haziza and Francisco Massa and Alaaeldin El-Nouby and Mahmoud Assran and Nicolas Ballas and Wojciech Galuba and Russell Howes and Po-Yao Huang and Shang-Wen Li and Ishan Misra and Michael Rabbat and Vasu Sharma and Gabriel Synnaeve and Hu Xu and Hervé Jegou and Julien Mairal and Patrick Labatut and Armand Joulin and Piotr Bojanowski},
      year={2023},
      eprint={2304.07193},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}