跨模态推理

# 跨模态推理

ERNIE 4.5 300B A47B PT GGUF

ERNIE-4.5-300B-A47B 是一款文本 MoE 后训练模型，拥有 3000 亿的总参数，每个标记有 470 亿的激活参数。该模型具备多模态异构 MoE 预训练、高效扩展基础设施和特定模态后训练等先进技术，能在文本理解与生成、图像理解及跨模态推理等任务中表现出色。

大型语言模型

Transformers 支持多种语言

ERNIE 4.5 21B A3B PT GGUF

ERNIE-4.5-21B是一款强大的文本生成模型，基于先进的技术创新，在文本理解、生成等多方面表现出色。

大型语言模型

Transformers 支持多种语言

Qwen2.5 Omni 3B GGUF

Qwen2.5-Omni-3B-GGUF 是一个端到端的多模态模型，能够感知文本、图像、音频和视频等多种模态信息，同时以流式方式生成文本和自然语音响应。

多模态融合

Transformers 英语

Gemma 3n E4B It

Gemma 3n是Google推出的轻量级、最先进的开源多模态模型家族，基于与Gemini模型相同的研究和技术构建，支持文本、音频和视觉输入。

图像生成文本

Ristretto是一款创新的视觉语言模型，采用动态图像令牌部署技术，能根据任务需求灵活调整图像令牌数量，在性能和多功能性上超越前代产品。

图像生成文本

Transformers 支持多种语言

Qwen2 VL 2B Instruct

Qwen2-VL-2B-Instruct 是一个多模态视觉语言模型，支持图像文本到文本的任务。

图像生成文本

Transformers 英语

这是一个图像文本到文本的转换模型，能够处理图像和文本输入，生成相应的文本输出。

文本生成图像

Aya Vision 32B是Cohere实验室开发的开放权重32B参数多模态模型，支持23种语言的视觉语言任务。

图像生成文本

Transformers 支持多种语言

Chattime 1 7B Chat

ChatTime是一个统一处理时间序列与文本的多模态基础模型，具备零样本预测能力，支持时间序列与文本的双模态输入/输出。

多模态融合

ChemVLM是一个多模态大语言模型，专注于化学领域的应用，结合了文本和图像处理能力。

图像生成文本

Meta变色龙是FAIR研发的混合模态早期融合基础模型，支持图像和文本的多模态处理。

多模态融合

Eilev Blip2 Opt 2.7b

基于BLIP-2-OPT-2.7B训练的第一人称视角视频优化视觉语言模型，采用EILEV创新方法激发上下文学习能力

图像生成文本

Transformers 英语

CogVLM是一个强大的开源视觉语言模型，在多个跨模态基准测试中取得领先性能

文本生成图像

Transformers 英语

Pix2struct Infographics Vqa Large

Pix2Struct是一种图像编码器-文本解码器模型，通过多任务训练处理视觉语言理解任务，特别针对高分辨率信息图表的视觉问答进行了优化。

图像生成文本

Transformers 支持多种语言

Layoutlmv3 Base Mpdocvqa

该模型是基于微软LayoutLMv3预训练模型，在多页文档问答（MP-DocVQA）数据集上微调的文档视觉问答模型。

文本生成图像

Transformers 英语

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24