图像理解

# 图像理解

Qwen2 VL 2B GGUF

Qwen2-VL-2B 是一个视觉语言模型，提供 GGUF 格式的量化版本，适用于多种场景。

文本生成图像

Transformers 英语

Internlm Xcomposer2d5 Ol 7b

InternLM-XComposer2.5-OL是一个支持长时流式视频与音频交互的全方位多模态系统。

文本生成图像

Llava Critic 7b Hf

这是一个与transformers兼容的视觉语言模型，具备图像理解和文本生成能力

文本生成图像

LLaVA-Saiga-8b是基于IlyaGusev/saiga_llama3_8b模型开发的视觉-语言模型（VLM），主要适配俄语任务，但仍具备英语处理能力。

图像生成文本

Transformers 支持多种语言

Paligemma Longprompt V1 Safetensors

实验性视觉模型，融合关键词标签与长文本描述生成图像提示词

图像生成文本

Llava Calm2 Siglip

llava-calm2-siglip 是一个实验性的视觉语言模型，能够用日语和英语回答关于图像的问题。

图像生成文本

Transformers 支持多种语言

Paligemma 3B Chat V0.2

基于google/paligemma-3b-mix-448微调的多模态对话模型，专为多轮对话场景优化

文本生成图像

Transformers 支持多种语言

Paligemma Vqav2

该模型是基于google/paligemma-3b-pt-224在VQAv2数据集的一小部分上进行微调的版本，专注于视觉问答任务。

文本生成图像

Llava Llama 3 8b V1 1 GGUF

基于Meta-Llama-3-8B-Instruct和CLIP-ViT-Large-patch14-336微调的LLaVA模型，支持图像转文本任务

图像生成文本

Llava Phi 3 Mini Hf

基于Phi-3-mini-4k-instruct和CLIP-ViT-Large-patch14-336微调的LLaVA模型，支持图像转文本任务

图像生成文本

Blip Finetuned Fashion

该模型是基于Salesforce/blip-vqa-base微调的视觉问答模型，专注于时尚领域

文本生成图像

Mixtral AI Vision 128k 7b

一个结合视觉与语言能力的多模态模型，通过合并方法实现图像与文本交互功能

图像生成文本

Transformers 英语

Eris PrimeV3 Vision 7B

Eris Prime V2是一个7B参数规模的多模态语言模型，支持视觉功能，需配合Koboldcpp使用。

文本生成图像

ChaoticNeutrals

Vit Medium Patch16 Clip 224.tinyclip Yfcc15m

基于ViT架构的CLIP模型，用于零样本图像分类任务

Candle Llava V1.6 Mistral 7b

LLaVA 是一个视觉语言模型，能够理解和生成与图像相关的文本内容。

图像生成文本

TeCoA是基于OpenAI CLIP初始化的视觉语言模型，通过监督式对抗微调提升鲁棒性

文本生成图像

Llava V1.6 Vicuna 13b Gguf

LLaVA是基于Transformer架构的开源多模态聊天机器人，通过量化技术提供多种体积与质量平衡的模型版本。

图像生成文本

Ggml Llava V1.5 7b

LLaVA 是一个视觉语言模型，能够理解和生成与图像相关的文本内容。

图像生成文本

Pix2struct Vizwizvqa Base

这是一个基于Apache-2.0许可证的视觉问答模型，支持英文语言，专注于处理视觉相关的问答任务。

文本生成图像

Transformers 英语

Llava V1.5 13B GPTQ

Llava v1.5 13B是由Haotian Liu开发的多模态模型，结合了视觉和语言能力，能够理解和生成基于图像和文本的内容。

文本生成图像

Finetuned Git Large Chest Xrays

一个基于MIT许可证的视觉语言模型，专注于从图像生成文本描述。

Transformers 支持多种语言

Mplug Owl Llama 7b

mPLUG-Owl是一个多模态大语言模型，基于LLaMA-7B架构，支持图像理解和文本生成任务。

图像生成文本

Transformers 英语

Taiyi BLIP 750M Chinese

一个专注于将图像内容转换为文本描述的模型，支持中文处理。

Transformers 中文

基于未知数据集微调的BEiT基础模型，具体用途和性能信息暂不可用

大型语言模型

Upernet Convnext Large

UperNet是一个语义分割框架，结合ConvNeXt大型骨干网络，用于像素级语义标签预测。

Transformers 英语

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24