多模态融合

# 多模态融合

Wan2.1 T2V 14B FusionX GGUF

这是一个文本到视频的量化模型，将基础模型转换为GGUF格式，可在ComfyUI中使用，为文本到视频生成提供更多选择。

文本生成视频英语

Wan2.1 14B T2V FusionX FP8 GGUF

这是一个基于vrgamedevgirl84/Wan14BT2VFusionX模型的GGUF转换版本，主要用于文本到视频生成任务。

文本生成视频

Videollama2.1 7B AV CoT

VideoLLaMA2.1-7B-AV是一款多模态大语言模型，专注于视听问答任务，能够同时处理视频和音频输入，提供高质量的问答和描述生成能力。

视频生成文本

Transformers 英语

Hunyuanvideo I2V

混元视频-I2V是一个全新的图像转视频生成框架，基于腾讯混元视频模型扩展，支持从静态图像生成高质量视频内容。

图像生成视频

Vit Bart Image Captioner

基于BART-Large和ViT的视觉语言模型，用于生成图像的英文描述文本。

图像生成文本

Safetensors 英语

SD3.5 Large IP Adapter

这是一个基于SD3.5-Large模型的IP适配器，能够将图像作为输入条件，与文本提示共同生成新图像。

文本生成图像英语

Sdxl.ip Adapter

IP-Adapter是一种用于文本到图像扩散模型的图像提示适配器，能够将图像提示与文本提示结合使用，增强生成图像的相关性和质量。

文本生成图像其他

AA Chameleon 7b Base

支持图文交错输入输出的多模态模型，基于变色龙7B模型并通过对齐万物框架增强图像生成能力

文本生成图像

Transformers 英语

LinFusion 是一个基于扩散模型的文本生成图像模型，能够根据输入的文本描述生成高质量的图像。

文本生成图像

基于MuAViC数据集的多语言视听语音识别模型，结合音频和视觉模态实现鲁棒性能

音频生成文本

Chattime 1 7B Base

ChatTime是一个创新的多模态时间序列基础模型，将时间序列建模为外语，统一处理时间序列与文本的双模态输入/输出。

多模态融合

ConsistentID是一个多模态细粒度身份保持的肖像生成模型，能够生成具有极高身份保真度的肖像，同时不牺牲多样性和文本可控性。

文本生成图像其他

Music Generation Model

这是一个通过合并文本生成模型和音乐生成模型创建的混合模型，能够处理文本生成和音乐生成任务。

文本生成音频

Instructblip Flan T5 Xxl 8bit

BLIP-2是基于Flan T5-xxl的视觉-语言模型，通过冻结图像编码器与大型语言模型进行预训练，支持图像描述生成、视觉问答等任务。

图像生成文本

Transformers 英语

Mediocreatmybest

YOLO LLaMa 7B VisNav

本项目整合了YOLO目标检测模型与LLaMa 2 7b大语言模型，旨在为视障人士的日常出行提供辅助导航支持。

多模态融合

Timesformer Bert Video Captioning

基于Timesformer和BERT架构的视频字幕生成模型，能够为视频内容生成描述性字幕。

视频生成文本

Blip2 Flan T5 Xxl

BLIP-2是一种视觉语言模型，结合了图像编码器和大型语言模型，用于图像到文本的任务。

图像生成文本

Transformers 英语

LanguageMachines

Fusecap Image Captioning

FuseCap是一个专为生成语义丰富图像描述而设计的框架，利用大型语言模型生成融合图像描述。

图像生成文本

Raos Virtual Try On Model

基于稳定扩散框架构建的虚拟试穿系统，融合DreamBooth训练、EfficientNetB3特征提取和OpenPose姿态检测技术

BBS-Net是一种用于RGB-D显著目标检测的深度学习模型，采用分叉骨干策略网络结构，能够有效处理RGB和深度图像数据。

Blip2 Flan T5 Xxl

BLIP-2是一种视觉语言模型，结合了图像编码器和大型语言模型Flan T5-xxl，用于图像到文本任务。

图像生成文本

Transformers 英语

Blip2 Opt 2.7b Coco

BLIP-2是一个视觉-语言预训练模型，通过冻结图像编码器和大型语言模型来引导语言-图像预训练。

图像生成文本

Transformers 英语

BLIP-2是基于OPT-6.7b的视觉语言模型，通过冻结图像编码器和大型语言模型进行预训练，支持图像到文本生成和视觉问答等任务。

图像生成文本

Transformers 英语

Blip2 Flan T5 Xl

BLIP-2是基于Flan T5-xl的视觉语言模型，通过冻结图像编码器和大型语言模型进行预训练，支持图像描述生成和视觉问答等任务。

图像生成文本

Transformers 英语

基于稳定扩散的文本到图像生成模型，支持创意图像生成

图像生成英语

Lilt Infoxlm Base

LiLT-InfoXLM 是一种语言无关的布局变换器模型，通过将预训练的InfoXLM与语言无关布局变换器（LiLT）结合而成，适用于结构化文档理解任务。

多模态融合

Wav2vec2 2 Bart Large

该模型是基于wav2vec2-large-lv60和bart-large在librispeech_asr - clean数据集上微调的自动语音识别(ASR)模型

patrickvonplaten

Macbert Ngram Miao

一个基于Transformer架构的大语言模型，支持多种自然语言处理任务

大型语言模型

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24