语义理解增强

# 语义理解增强

Vit So400m Patch16 Siglip Gap 256.v2 Webli

基于SigLIP 2的ViT图像编码器，采用全局平均池化，移除了注意力池化头，适用于图像特征提取任务。

文本生成图像

Vit So400m Patch16 Siglip 512.v2 Webli

基于SigLIP 2的视觉Transformer模型，专为图像特征提取设计，适用于多语言视觉-语言任务。

文本生成图像

Vit So400m Patch16 Siglip 256.v2 Webli

SigLIP 2 ViT模型，仅包含图像编码器部分，用于图像特征提取，基于WebLI数据集训练。

文本生成图像

Vit So400m Patch14 Siglip Gap 224.v2 Webli

基于SigLIP 2的ViT图像编码器，采用全局平均池化，移除了注意力池化头，适用于图像特征提取任务。

Vit So400m Patch14 Siglip 224.v2 Webli

基于SigLIP 2架构的视觉Transformer模型，专为图像特征提取设计，预训练于webli数据集。

Vit Large Patch16 Siglip Gap 512.v2 Webli

基于SigLIP 2架构的视觉Transformer模型，专为图像特征提取设计，采用全局平均池化(GAP)替代注意力池化头部

Vit Large Patch16 Siglip Gap 256.v2 Webli

基于SigLIP 2的ViT图像编码器，采用全局平均池化，移除了注意力池化头，专为图像特征提取设计。

文本生成图像

Vit Large Patch16 Siglip 512.v2 Webli

基于SigLIP 2的ViT图像编码器，专为timm设计，适用于视觉-语言任务

Vit Large Patch16 Siglip 384.v2 Webli

基于SigLIP 2架构的视觉Transformer模型，专为图像特征提取设计，预训练于webli数据集

文本生成图像

Vit Giantopt Patch16 Siglip 256.v2 Webli

基于SigLIP 2技术的视觉Transformer模型，专注于图像特征提取

文本生成图像

Vit Base Patch32 Siglip Gap 256.v2 Webli

基于SigLIP 2的视觉Transformer模型，使用全局平均池化(GAP)替代注意力池化头的图像编码器

文本生成图像

Vit Base Patch16 Siglip Gap 256.v2 Webli

基于SigLIP 2的ViT图像编码器，采用全局平均池化，移除注意力池化头，适用于图像特征提取。

多模态融合

Vit Base Patch16 Siglip Gap 224.v2 Webli

基于SigLIP 2的视觉变换器模型，采用全局平均池化处理图像特征

Vit Base Patch16 Siglip 512.v2 Webli

基于SigLIP 2的视觉变换器模型，专为图像特征提取设计，使用webli数据集预训练

文本生成图像

Siglip2 So400m Patch16 Naflex

SigLIP 2 是基于 SigLIP 预训练目标的改进模型，整合了多项技术以提升语义理解、定位和密集特征提取能力。

文本生成图像

Siglip2 So400m Patch14 224

SigLIP 2 是基于 SigLIP 改进的多语言视觉语言编码器，增强了语义理解、定位和密集特征提取能力。

图像生成文本

Siglip2 Large Patch16 384

SigLIP 2 是在 SigLIP 基础上改进的多语言视觉语言编码器，提升了语义理解、定位和密集特征提取能力。

文本生成图像

Siglip2 Large Patch16 256

SigLIP 2 是基于 SigLIP 改进的视觉语言模型，整合了多项技术以提升语义理解、定位和密集特征提取能力。

文本生成图像

Siglip2 Base Patch16 512

SigLIP 2 是一个视觉语言模型，整合了多项技术以提升语义理解、定位和密集特征提取能力。

文本生成图像

Siglip2 Base Patch16 256

SigLIP 2是一个多语言视觉语言编码器，改进了语义理解、定位和密集特征提取能力。

图像生成文本

Siglip2 Base Patch32 256

SigLIP 2 是基于 SigLIP 的改进版本，整合了多项技术以提升语义理解、定位和密集特征提取能力。

文本生成图像

Aramodernbert Base V1.0

AraModernBert是基于ModernBERT架构构建的先进阿拉伯语语言模型，结合了Transformer设计创新与100GB阿拉伯语文本的大规模训练。

大型语言模型

Transformers 阿拉伯语

Mbert Multiconer22 Hi

该模型是专为SemEval Multiconer任务设计的命名实体识别(NER)模型，用于识别多语言和跨领域文本中的复杂实体类别。

Ernie 2.0 Base En

ERNIE 2.0是百度于2019年提出的持续预训练框架，通过持续的多任务学习逐步构建和优化预训练任务。在多项任务中表现优于BERT和XLNet。

大型语言模型

Transformers 英语

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24