高分辨率处理

# 高分辨率处理

Webssl Dino7b Full8b 378

基于80亿无语言标注网络图像训练的70亿参数视觉Transformer模型，通过自监督学习实现卓越的视觉表征能力

Auramask Ensemble Poprocket

该模型使用改进的vnet架构进行图像到图像处理，支持对抗性、美学和质量增强等任务

Auramask Ensemble Moon

该模型使用改进的vnet架构进行2D图像处理，专注于图像到图像的转换任务，具有对抗性和美学优化特性。

C-RADIOv2是NVIDIA开发的视觉特征提取模型，提供多种规格版本，适用于图像理解和密集处理任务。

C-RADIOv2是NVIDIA开发的视觉特征提取模型，提供多种尺寸版本，适用于图像理解和密集视觉任务。

图像特征提取

Aimv2 3b Patch14 448.apple Pt

AIM-v2是一个基于timm库的图像编码器模型，具有3B参数规模，适用于图像特征提取任务。

Aimv2 3b Patch14 336.apple Pt

AIM-v2是一个基于timm库的图像编码器模型，适用于图像特征提取任务。

Resnet50x64 Clip Gap.openai

基于ResNet50架构的CLIP模型图像编码器，具有64倍宽度扩展，使用全局平均池化(GAP)策略

Resnet50x16 Clip Gap.openai

基于CLIP框架的ResNet50x16变体模型，专注于图像特征提取

Vit Huge Patch14 Clip 224.dfn5b

基于CLIP架构的ViT-Huge图像编码器，由苹果公司发布的DFN5B-CLIP模型，适用于视觉特征提取任务。

Vit So400m Patch14 Siglip Gap 896.pali Pt

基于SigLIP图像编码器的视觉模型，采用全局平均池化，是PaliGemma项目的一部分

文本生成图像

Vit So400m Patch14 Siglip Gap 384.webli

基于SigLIP的视觉Transformer模型，采用全局平均池化处理图像特征

Vit Base Patch16 Siglip 512.webli

基于SigLIP架构的视觉Transformer模型，仅包含图像编码器部分，采用原始注意力池化机制

Vit Base Patch16 Siglip 256.webli I18n

基于SigLIP的ViT-B-16视觉Transformer模型，仅包含图像编码器，采用原始注意力池化

Convnext Large Mlp.clip Laion2b Ft Soup 320

基于CLIP架构的ConvNeXt-Large图像编码器，在LAION-2B数据集上微调，支持320x320分辨率图像特征提取

Mini InternVL2 1B DA DriveLM

Mini-InternVL2-DA-RS是针对遥感图像领域优化的多模态模型，基于Mini-InternVL架构，通过领域适配框架微调，在遥感图像理解任务上表现优异。

图像生成文本

Transformers 其他

Coreml DepthPro

DepthPro 是一种单目深度估计模型，能够通过单张图像预测深度。

Timesformer Hr Finetuned K600

TimeSformer-HR 是一个基于视频的动作识别模型，专门针对高分辨率视频进行了优化，并在 Kinetics-600 数据集上进行了微调。

Dust3r ViTLarge BaseDecoder 512 Dpt

DUSt3R是一个用于从图像轻松实现几何3D视觉的模型，能够从单张或多张图像重建3D场景。

NVIDIA开发的视觉特征提取模型，用于生成图像嵌入，支持下游任务如图像分类。

视觉特征提取

基于Vision Transformer架构的大规模视觉语言模型，支持零样本图像分类任务

该模型是基于Facebook ConvNeXtV2架构的微调版本，专门针对Pixiv排行榜图像进行多标签分类任务训练

Aesthetic Shadow

美学阴影是一款拥有11亿参数的视觉Transformer模型，专为评估动漫图像质量而设计。

Segformer B4 City Satellite Segmentation 1024x1024

基于SegFormer架构的卫星图像分割模型，专为城市区域分割任务设计

Eva02 Enormous Patch14 Clip 224.laion2b S4b B115k

基于EVA02架构的大规模视觉-语言模型，支持零样本图像分类任务

文本生成图像

Eva02 Large Patch14 Clip 336.merged2b S6b B61k

EVA02是一个基于CLIP架构的大规模视觉-语言模型，支持零样本图像分类任务。

文本生成图像

Efficientnet B6

EfficientNet是一款移动端友好的纯卷积模型，通过复合系数统一缩放深度/宽度/分辨率维度，在ImageNet-1k数据集上训练

Convnextv2 Huge.fcmae

基于ConvNeXt-V2的自监督特征表示模型，采用全卷积掩码自编码器框架(FCMAE)进行预训练，适用于图像分类和特征提取任务。

Timesformer Hr Finetuned Ssv2

TimeSformer是一个基于时空注意力机制的视频分类模型，在Something Something v2数据集上进行了微调。

Timesformer Hr Finetuned K600

TimeSformer是一种基于时空注意力机制的视频理解模型，高分辨率变体专门针对Kinetics-600数据集进行了微调。

Timesformer Hr Finetuned Ssv2

TimeSformer是基于空间-时间注意力机制的视频理解模型，该版本是在Something Something v2数据集上微调的高分辨率变体。

Timesformer Hr Finetuned K400

TimeSformer是一种基于空间-时间注意力机制的视频理解模型，在Kinetics-400数据集上进行了预训练和微调。

Vit Large Patch16 224

基于Transformer架构的大规模图像分类模型，在ImageNet-21k和ImageNet-1k数据集上预训练和微调

Segformer B0 Finetuned Cityscapes 640 1280

SegFormer是一个基于Transformer架构的语义分割模型，在Cityscapes数据集上进行了微调，适用于道路场景分割任务。

Beit Base Finetuned Ade 640 640

BEiT是一种基于视觉Transformer（ViT）架构的模型，通过自监督学习在ImageNet-21k上预训练，并在ADE20k数据集上微调，专门用于图像语义分割任务。

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24