WebLI预训练

# WebLI预训练

Vit So400m Patch16 Siglip Gap 384.v2 Webli

基于SigLIP 2的ViT图像编码器，采用全局平均池化，移除了注意力池化头，适用于图像特征提取任务。

Vit Giantopt Patch16 Siglip Gap 384.v2 Webli

基于SigLIP 2的ViT图像编码器，采用全局平均池化处理，移除了注意力池化头部，适用于图像特征提取任务。

Vit Base Patch32 Siglip Gap 256.v2 Webli

基于SigLIP 2的视觉Transformer模型，使用全局平均池化(GAP)替代注意力池化头的图像编码器

文本生成图像

Vit Gopt 16 SigLIP2 256

基于WebLI数据集训练的SigLIP 2视觉语言模型，适用于零样本图像分类任务。

文本生成图像

Vit SO400M 16 SigLIP2 512

基于WebLI数据集训练的SigLIP 2视觉语言模型，适用于零样本图像分类任务

文本生成图像

Vit SO400M 16 SigLIP2 384

基于WebLI数据集训练的SigLIP 2视觉语言模型，支持零样本图像分类任务。

文本生成图像

Vit SO400M 16 SigLIP2 256

基于WebLI数据集训练的SigLIP 2视觉语言模型，支持零样本图像分类

文本生成图像

Vit SO400M 14 SigLIP2 378

基于WebLI数据集训练的SigLIP 2视觉语言模型，支持零样本图像分类任务

文本生成图像

Vit SO400M 14 SigLIP2

一个在WebLI数据集上训练的SigLIP 2视觉语言模型，适用于零样本图像分类任务。

文本生成图像

Vit L 16 SigLIP2 512

基于WebLI数据集训练的SigLIP 2视觉语言模型，支持零样本图像分类任务

文本生成图像

Vit L 16 SigLIP2 384

一个在WebLI数据集上训练的SigLIP 2视觉语言模型，适用于零样本图像分类任务。

文本生成图像

Vit L 16 SigLIP2 256

基于WebLI数据集训练的SigLIP 2视觉语言模型，支持零样本图像分类

文本生成图像

Vit B 16 SigLIP2 512

基于WebLI数据集训练的SigLIP 2视觉语言模型，支持零样本图像分类任务

文本生成图像

Vit B 16 SigLIP2

基于WebLI数据集训练的SigLIP 2视觉语言模型，适用于零样本图像分类任务。

文本生成图像

Vit B 32 SigLIP2 256

基于WebLI数据集训练的SigLIP 2视觉语言模型，支持零样本图像分类任务

文本生成图像

Vit B 16 SigLIP2 256

基于WebLI数据集训练的SigLIP 2视觉语言模型，支持零样本图像分类任务

文本生成图像

Siglip2 So400m Patch16 256

SigLIP 2 是基于 SigLIP 的改进模型，整合了多项技术以提升语义理解、定位和密集特征提取能力。

文本生成图像

Siglip2 Base Patch16 224

SigLIP 2是基于SigLIP改进的多语言视觉语言编码器，增强了语义理解、定位和密集特征提取能力。

图像生成文本

Siglip So400m Patch16 256 I18n

基于SoViT主干网络、采用Sigmoid损失函数改进的多模态模型，支持零样本图像分类和图文检索

图像生成文本

Siglip So400m Patch14 384

SigLIP是基于WebLi数据集预训练的视觉语言模型，采用改进的sigmoid损失函数，优化了图像-文本匹配任务。

图像生成文本

Siglip Base Patch16 256 Multilingual

SigLIP是基于WebLi数据集预训练的改进版CLIP模型，采用Sigmoid损失函数优化图像-文本匹配任务

文本生成图像

Siglip Base Patch16 512

SigLIP是基于WebLi数据集预训练的视觉-语言模型，采用改进的sigmoid损失函数，在图像分类和图文检索任务中表现优异。

文本生成图像

Vit B 16 SigLIP I18n 256

一个在WebLI数据集上训练的SigLIP（用于语言-图像预训练的Sigmoid损失）模型，适用于零样本图像分类任务。

文本生成图像

Vit SO400M 14 SigLIP 384

基于WebLI数据集训练的SigLIP（语言-图像预训练的Sigmoid损失）模型，适用于零样本图像分类任务。

文本生成图像

Vit SO400M 14 SigLIP

一个在WebLI数据集上训练的SigLIP（用于语言-图像预训练的Sigmoid损失）模型，适用于零样本图像分类任务。

文本生成图像

Vit L 16 SigLIP 384

基于WebLI数据集训练的SigLIP（Sigmoid Loss for Language-Image Pre-training）模型，用于零样本图像分类任务。

文本生成图像

Vit L 16 SigLIP 256

基于WebLI数据集训练的SigLIP（语言图像预训练的Sigmoid损失）模型，用于零样本图像分类任务。

文本生成图像

Vit B 16 SigLIP 512

基于WebLI数据集训练的SigLIP（Sigmoid损失语言图像预训练）模型，用于零样本图像分类任务

文本生成图像

Vit B 16 SigLIP 384

基于WebLI数据集训练的SigLIP（Sigmoid损失语言图像预训练）模型，用于零样本图像分类任务

文本生成图像

Vit B 16 SigLIP 256

一个在WebLI数据集上训练的SigLIP（语言-图像预训练的Sigmoid损失）模型，适用于零样本图像分类任务。

文本生成图像

Siglip Base Patch16 224

SigLIP是基于WebLi数据集预训练的视觉语言模型，采用改进的Sigmoid损失函数，优化了图像-文本匹配任务

图像生成文本

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24