vit-base-patch16-224-in21k开源视觉模型 - 高效处理图像，助你精准识别物体

首页

Vit Base Patch16 224 In21k

由 Xenova 开发

基于Transformer架构的视觉模型，通过16x16图像块处理224x224分辨率输入，在ImageNet-21k数据集上预训练

图像分类

Transformers

#网页端图像分类 #ONNX格式适配 #高精度视觉模型

下载量 132

发布时间 : 5/3/2023

模型简介

该模型采用纯Transformer架构处理图像分类任务，突破传统CNN的限制，将图像分割为固定大小的块后通过自注意力机制建模全局关系

模型特点

纯Transformer架构

完全基于自注意力机制处理图像，无需卷积操作

全局上下文建模

通过Transformer的自注意力机制捕获图像全局依赖关系

高效图像分块处理

将图像划分为16x16像素块作为输入序列

模型能力

图像特征提取

图像分类

迁移学习基础模型

使用案例

计算机视觉

通用图像分类

对自然图像进行1000类别的分类识别

在ImageNet验证集上达到约80% top-1准确率（推断值）

迁移学习基础

通过微调适配特定领域的图像识别任务

属性	详情
基础模型	google/vit-base-patch16-224-in21k
库名称	transformers.js

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

uer

2,694

智启未来，您的人工智能解决方案智库

简体中文

Vit Base Patch16 224 In21k

模型简介

模型特点

模型能力

使用案例

🚀 视觉变换器 (ViT-Base) ONNX适配版

🚀 快速开始

📚 详细文档