高精度视觉模型

# 高精度视觉模型

Comp SigLIP So400M

CoMP-MM-1B是一个支持原生图像分辨率输入的视觉基础模型（VFM），基于SigLIP持续预训练而成。

多模态融合

Sam2 Hiera Base Plus.fb R896 2pt1

基于HieraDet图像编码器的SAM2模型权重，专注于图像特征提取任务

Vit Large Patch16 Siglip Gap 384.webli

基于SigLIP的视觉Transformer模型，采用全局平均池化，适用于图像特征提取任务。

Florence 2 Large Ft

Florence-2是微软开发的先进视觉基础模型，采用基于提示的方法处理广泛的视觉与视觉-语言任务。

文本生成图像

Resnet50x16 Clip.openai

基于CLIP框架的ResNet50x16视觉模型，支持零样本图像分类任务

Resnet50x4 Clip.openai

基于CLIP架构的ResNet50x4视觉语言模型，支持零样本图像分类任务

图像生成文本

Vit Bigg 14 CLIPA Datacomp1b

CLIPA-v2模型，专注于零样本图像分类任务，通过对比式图文训练实现高效视觉表示学习

文本生成图像

Vit H 14 CLIPA 336 Datacomp1b

CLIPA-v2模型，一种高效的对比式图文模型，专注于零样本图像分类任务。

文本生成图像

Vit H 14 CLIPA Datacomp1b

CLIPA-v2模型，一个高效的对比式图文模型，专为零样本图像分类任务设计。

文本生成图像

Vit H 14 CLIPA 336 Laion2b

CLIPA-v2模型，基于laion2B-en数据集训练，专注于零样本图像分类任务

文本生成图像

Vit Base Patch16 224 In21k

基于Transformer架构的视觉模型，通过16x16图像块处理224x224分辨率输入，在ImageNet-21k数据集上预训练

Eva02 Enormous Patch14 Plus Clip 224.laion2b S9b B144k

基于EVA02架构的大规模视觉语言模型，支持零样本图像分类任务

文本生成图像

Eva Giant Patch14 Plus Clip 224.merged2b S11b B114k

EVA-Giant是基于CLIP架构的大规模视觉-语言模型，支持零样本图像分类任务。

文本生成图像

Car Brands Classification

基于BEiT架构的预训练图像分类模型，支持越南语标签，适用于视觉任务

Transformers 其他

Convnext Large 224 22k 1k

ConvNeXT是一个纯卷积模型，受视觉Transformer设计启发，在ImageNet-22k上预训练并在ImageNet-1k上微调，性能优于传统视觉Transformer。

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24