SigLIP视觉编码

# SigLIP视觉编码

Smolvlm 500M Anime Caption V0.2

专注于描述动漫风格图像的视觉语言模型，基于SmolVLM-500M-Base微调

图像生成文本

Safetensors 英语

Janus-Pro 是一种新颖的自回归框架，统一了多模态理解和生成。它通过解耦视觉编码路径，使用单一的统一 Transformer 架构处理多模态任务。

文本生成图像

Vit So400m Patch14 Siglip Gap 896.pali2 10b Pt

基于SigLIP图像编码器的视觉模型，带全局平均池化，是PaliGemma2模型的一部分

文本生成图像

Vit So400m Patch14 Siglip Gap 448.pali Mix

基于SigLIP图像编码器的视觉语言模型，采用全局平均池化处理，适用于多模态任务。

文本生成图像

Vit So400m Patch14 Siglip 378.webli

基于SigLIP的视觉Transformer模型，仅包含图像编码器，采用原始注意力池化机制。

Vit Large Patch16 Siglip 384.webli

基于SigLIP的视觉Transformer模型，仅包含图像编码器，采用原始注意力池化，适用于图像特征提取任务。

Vit Base Patch16 Siglip 384.webli

基于SigLIP的视觉Transformer模型，仅包含图像编码器部分，采用原始注意力池化机制

Vit Base Patch16 Siglip 256.webli

基于SigLIP的ViT-B-16图像编码器模型，采用原始注意力池化，适用于图像特征提取任务。

Vit So400m Patch14 Siglip 224.webli

基于SigLIP的视觉Transformer模型，仅包含图像编码器部分，采用原始注意力池化机制

Llm Jp 3 Vila 14b

由日本国立情报学研究所开发的大型视觉语言模型，支持日语和英语，具备强大的图像理解和文本生成能力。

图像生成文本

Safetensors 日语

FLUX.1 Dev IP Adapter

FLUX.1-dev模型的IP适配器，支持将图像处理方式与文本类似，用于文本生成图像任务

文本生成图像英语

nanoLLaVA-1.5是一款参数规模在10亿以下的视觉语言模型，专为边缘设备设计，小巧但功能强大。

图像生成文本

Transformers 英语

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24