ViT骨干网络

# ViT骨干网络

Checkpoint Aerial Mast3r

AerialMegaDepth是一个专注于空地重建与视角合成的深度学习模型，能够从航拍图像中重建3D场景并生成新视角。

Dpt Large Ade20k

基于Transformer架构的语义分割模型，专为ADE20K数据集优化

Vit Large Patch16 224.orig In21k

基于Vision Transformer（ViT）的图像分类模型，由Google Research在JAX框架下使用ImageNet-21k预训练，后移植到PyTorch。适用于特征提取和微调场景。

Vit Base Patch32 224.orig In21k

基于Vision Transformer (ViT)的图像分类模型，在ImageNet-21k上预训练，适用于特征提取和微调场景。

Vit Base Patch16 224.orig In21k

基于Vision Transformer的图像分类模型，在ImageNet-21k上预训练，适用于特征提取和微调

Samvit Huge Patch16.sa1b

Segment-Anything视觉变换器（SAM ViT）图像特征模型，仅包含特征提取和微调功能，不包含分割头。

Samvit Base Patch16.sa1b

Segment-Anything视觉变换器（SAM ViT）图像特征模型，仅包含特征提取和微调功能，不包含分割头。

Vit Base Patch14 Dinov2.lvd142m

基于Vision Transformer（ViT）的图像特征模型，采用自监督DINOv2方法在LVD-142M数据集上预训练

Owlvit Base Patch16

OWL-ViT是一个零样本文本条件目标检测模型，可通过文本查询在图像中检测物体。

文本生成图像

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24