多模态模型

# 多模态模型

SpaceOm-GGUF 是一款专注于视觉问答任务的多模态模型，在空间推理方面表现出色。

文本生成图像英语

PP-Chart2Table是由PaddlePaddle团队开发的多模态模型，专注于中英文图表解析，能够高效地将图表转换为数据表。

图像生成文本支持多种语言

Gemma 3 4b It Qat GGUF

Gemma 3是谷歌推出的轻量级先进开放模型系列，基于创建Gemini模型的相同研究和技术构建。该模型是多模态的，能够处理文本和图像输入并生成文本输出。

文本生成图像英语

Qwen2 VL 7B Captioner Relaxed GGUF

该模型是基于Qwen2-VL-7B-Captioner-Relaxed转换的GGUF格式版本，专为图像转文本任务优化，支持通过llama.cpp和Koboldcpp等工具运行。

图像生成文本英语

Llm Jp Clip Vit Base Patch16

日语CLIP模型，基于OpenCLIP框架训练，支持零样本图像分类任务

文本生成图像日语

Vit GPT2 Image Captioning

基于ViT-GPT2架构的图像描述生成模型，能够为输入的图像生成自然语言描述。

图像生成文本

Vit GPT2 Image Captioning

基于ViT-GPT2架构的图像描述生成模型，能够为输入的图像生成自然语言描述。

图像生成文本

Florence 2 Large TableDetection

基于Florence-2模型微调的多模态表格检测模型，能够精准定位图像中的表格区域

图像生成文本

Paligemma Longprompt V1 Safetensors

实验性视觉模型，融合关键词标签与长文本描述生成图像提示词

图像生成文本

Paligemma 3b Mix 448 Ft TableDetection

基于google/paligemma-3b-mix-448微调的多模态表格检测模型，专用于识别图像中的表格区域

图像生成文本

Paligemma Vqav2

该模型是基于google/paligemma-3b-pt-224在VQAv2数据集的一小部分上进行微调的版本，专注于视觉问答任务。

文本生成图像

Paligemma Rich Captions

基于PaliGemma-3b模型在DocCI数据集上微调的图像描述生成模型，能生成200-350字符的详细描述文本，减少幻觉现象

图像生成文本

Transformers 英语

Compare2Score是一个用于图像质量评估的模型，通过特定算法为图像提供质量评分。

CheXagent是一个专注于胸部X光解读的基础模型，旨在辅助医疗影像分析。

图像生成文本

Transformers 其他

Vit Base Patch16 224 Turkish Gpt2 Medium

这是一个基于ViT和土耳其语GPT-2的视觉编码器-解码器模型，用于生成土耳其语的图像描述。

图像生成文本

Transformers 其他

Vit Medium Patch16 Clip 224.tinyclip Yfcc15m

基于ViT架构的CLIP模型，用于零样本图像分类任务

Xrayclip Vit L 14 Laion2b S32b B82k

CheXagent是一个专门用于胸部X光解读的基础模型，能够自动分析和解释胸部X光图像。

图像生成文本

Siglip Large Patch16 384

SigLIP是基于WebLi数据集预训练的多模态模型，采用改进的Sigmoid损失函数，适用于零样本图像分类和图文检索任务。

图像生成文本

Siglip Large Patch16 256

SigLIP是基于WebLi数据集预训练的视觉语言模型，采用改进的sigmoid损失函数提升性能

图像生成文本

Siglip Base Patch16 512

SigLIP是基于WebLi数据集预训练的视觉-语言模型，采用改进的sigmoid损失函数，在图像分类和图文检索任务中表现优异。

文本生成图像

Chinese Clip Vit Large Patch14

中文CLIP模型，基于Vision Transformer架构，支持图像与文本的跨模态理解与生成。

文本生成图像

ChartLlama是基于LLaVA-1.5架构的多模态模型，专注于图表理解和分析任务。

大型语言模型

Transformers 英语

Siglip Base Patch16 224

SigLIP是基于WebLi数据集预训练的视觉语言模型，采用改进的Sigmoid损失函数，优化了图像-文本匹配任务

图像生成文本

Blip Image Captioning Base Test Sagemaker Tops 3

该模型是基于Salesforce的BLIP图像描述生成基础模型在SageMaker平台上微调的版本，主要用于图像描述生成任务。

图像生成文本

Swin Aragpt2 Image Captioning V3

基于Swin Transformer和AraGPT2架构的图像描述生成模型，能够为输入的图像生成文本描述。

图像生成文本

Saved Model Git Base

基于microsoft/git-base在图像文件夹数据集上微调的视觉语言模型，主要用于图像描述生成任务

图像生成文本

Transformers 其他

Blip2 Flan T5 Xl Sharded

这是BLIP-2模型的分片版本，采用Flan T5-xl实现图像到文本任务，如图像描述和视觉问答。分片处理使其能在低内存环境中加载。

图像生成文本

Transformers 英语

基于VisionEncoderDecoder架构的图像描述生成模型，能够将输入图像转换为自然语言描述。

图像生成文本

Clip Vit Large Patch14 Ko

基于知识蒸馏训练的韩语CLIP模型，支持韩语和英语的多模态理解

文本生成图像

Transformers 韩语

Layoutlmv3 Finetuned Wildreceipt

基于LayoutLMv3-base模型在WildReceipt收据数据集上微调的版本，用于收据关键信息提取任务

Theivaprakasham

基于ViT-GPT2架构的视觉-语言模型，用于图像转文本任务

图像生成文本

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24