零样本图像理解

# 零样本图像理解

Vit Base Patch16 Siglip 384.webli

基于SigLIP的视觉Transformer模型，仅包含图像编码器部分，采用原始注意力池化机制

Vit Base Patch16 Siglip 256.webli I18n

基于SigLIP的ViT-B-16视觉Transformer模型，仅包含图像编码器，采用原始注意力池化

Vit Base Patch16 Siglip 256.webli

基于SigLIP的ViT-B-16图像编码器模型，采用原始注意力池化，适用于图像特征提取任务。

Minicpm V 2 6 GGUF

MiniCPM-V-2_6 是一个视觉问答模型，支持中英文，专注于处理视觉相关的问答任务。

文本生成图像支持多种语言

Instructblip Flan T5 Xxl

InstructBLIP是BLIP-2经过视觉指令调优的版本，能够根据图像和文本指令生成描述或回答

图像生成文本

Transformers 英语

Instructblip Vicuna 7b

InstructBLIP是基于BLIP-2的视觉指令调优版本，采用Vicuna-7B作为语言模型，专注于视觉语言任务。

图像生成文本

Transformers 英语

Vit Gpt2 Image Chinese Captioning

该模型使用ViT对图像进行编码，再通过GPT-2进行解码，支持中文图像描述生成。

图像生成文本

Transformers 中文

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24