跨模态理解

# 跨模态理解

Qwen2.5 VL 7B Abliterated Caption It I1 GGUF

Qwen2.5-VL-7B-Abliterated-Caption-it的量化版本，支持多语言图像描述任务。

图像生成文本

Transformers 支持多种语言

ERNIE 4.5 21B A3B PT GGUF

ERNIE-4.5-21B-A3B-PT是基于MoE架构的先进文本生成模型，具有210亿参数和高效的多模态处理能力。

大型语言模型

Transformers 支持多种语言

ERNIE 4.5 300B A47B PT GGUF

ERNIE-4.5-300B-A47B 是一款基于 MoE 架构的多模态预训练模型，具备强大的文本理解和生成能力，支持视觉-语言联合推理。

大型语言模型

Transformers 支持多种语言

Qwen2.5 Omni 7B GGUF

Qwen2.5-Omni-7B-GGUF 是基于 Qwen2.5-Omni-7B 模型的 GGUF 格式版本，支持多模态输入，包括文本、音频和图像。

大型语言模型英语

Internvl3 78B Hf

InternVL3 是一个先进的多模态大语言模型系列，具备强大的多模态感知和推理能力，支持图像、视频和文本输入。

图像生成文本

Transformers 其他

Cephalo Gemma 3 4b It 04 16 2025

Cephalo-Gemma-3-4b 是一个专注于生物材料和蜘蛛丝分析的视觉语言模型，基于 Gemma 架构进行精调。

图像生成文本

Qwen2.5 Omni 7B

Qwen2.5-Omni 是一个端到端的多模态模型，能够感知文本、图像、音频和视频等多种模态，并以流式方式生成文本和自然语音响应。

多模态融合

Transformers 英语

Centurio 是一个开源的多语言大型视觉语言模型，支持100种语言，具备图像文本到文本的处理能力。

图像生成文本

Transformers 支持多种语言

VITA-1.5是一个多模态交互模型，旨在实现GPT-4o级别的实时视觉与语音交互能力。

视频文本转文本

Aimv2 Large Patch14 224 Distilled

AIMv2是通过多模态自回归目标预训练的视觉模型系列，在多模态理解基准测试中表现优异。

Thaicapgen Clip Gpt2

基于CLIP编码器和GPT2架构的编码器-解码器模型，用于生成泰语图像描述

图像生成文本其他

VILA-U是一个统一处理视觉语言理解与生成任务的基础模型，通过单一自回归框架实现高效的多模态处理。

文本生成图像

AA Chameleon 7b Plus

这是一个强大的文本-图像交错输入输出模型，通过对齐万物算法进行了深度对齐，提升了图像生成能力和人类偏好对齐能力。

文本生成图像

Transformers 英语

Meta变色龙是FAIR研发的混合模态早期融合基础模型，支持图像和文本的多模态处理。

多模态融合

该模型是一个基于Apache-2.0许可证的图像转文本模型，能够将图像内容转换为文本描述。

CSUMLM是整合多模态AI引擎和大语言模型优势的前沿人工智能系统，具备多模态处理、复杂语言理解和实时学习能力。

多模态融合

Transformers 支持多种语言

Finetuned Blip Chest Xrays

一个基于深度学习的图像转文本模型，能够为输入的图像生成描述性字幕。

图像生成文本

Transformers 英语

Blip Image Captioning Large

BLIP是一个统一的视觉语言预训练框架，擅长图像描述生成和理解任务，通过引导式标注策略高效利用网络数据

图像生成文本

General Image Captioning

这是一个基于Apache-2.0许可证的图像转文本模型，能够将图像内容转换为文本描述。

Transformers 其他

CLIP ViT B 16 DataComp.XL S13b B90k

这是一个使用OpenCLIP在DataComp-1B数据集上训练的CLIP ViT-B/16模型，主要用于零样本图像分类和图像文本检索。

文本生成图像

Pix2struct Docvqa Base

Pix2Struct是一个图像编码器-文本解码器模型，通过图像-文本对训练，支持多种任务，包括图像描述生成和视觉问答。

图像生成文本

Transformers 支持多种语言

Mscoco Finetuned CoCa ViT L 14 Laion2b S13b B90k

这是一个基于MIT许可证的图像转文本模型，能够将图像内容转换为文本描述。

图像生成文本

Vinvl Base Image Captioning

微软VinVL基础预训练模型，专为图像描述生成任务设计，具备强大的视觉-语言理解能力。

图像生成文本

michelecafagna26

Chinese Clip Vit Large Patch14 336px

中文CLIP是基于约2亿中文图文对数据集的CLIP简化实现，采用ViT-L/14@336px作为图像编码器，RoBERTa-wwm-base作为文本编码器。

文本生成图像

支持韩语和英语的预训练视觉编码器文本解码器模型

图像生成文本

Transformers 支持多种语言

molt5-base 是一个基于 T5 架构的模型，专门用于分子与自然语言之间的翻译任务。

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24