Videollama2.1 7B AV CoT
Apache-2.0
VideoLLaMA2.1-7B-AV是一款多模态大语言模型,专注于视听问答任务,能够同时处理视频和音频输入,提供高质量的问答和描述生成能力。
视频生成文本
Transformers

英语
V
lym0302
34
0
Hunyuanvideo I2V
其他
混元视频-I2V是一个全新的图像转视频生成框架,基于腾讯混元视频模型扩展,支持从静态图像生成高质量视频内容。
图像生成视频
H
tencent
3,272
305
Vit Bart Image Captioner
Apache-2.0
基于BART-Large和ViT的视觉语言模型,用于生成图像的英文描述文本。
图像生成文本
Safetensors
英语
V
SrujanTopalle
15
1
SD3.5 Large IP Adapter
其他
这是一个基于SD3.5-Large模型的IP适配器,能够将图像作为输入条件,与文本提示共同生成新图像。
文本生成图像
英语
S
InstantX
1,474
106
Sdxl.ip Adapter
Apache-2.0
IP-Adapter是一种用于文本到图像扩散模型的图像提示适配器,能够将图像提示与文本提示结合使用,增强生成图像的相关性和质量。
文本生成图像
其他
S
refiners
18
0
AA Chameleon 7b Base
支持图文交错输入输出的多模态模型,基于变色龙7B模型并通过对齐万物框架增强图像生成能力
文本生成图像
Transformers

英语
A
PKU-Alignment
105
8
Linfusion XL
LinFusion 是一个基于扩散模型的文本生成图像模型,能够根据输入的文本描述生成高质量的图像。
文本生成图像
L
Yuanshi
37
7
AV HuBERT
基于MuAViC数据集的多语言视听语音识别模型,结合音频和视觉模态实现鲁棒性能
音频生成文本
Transformers

A
nguyenvulebinh
683
3
Chattime 1 7B Base
Apache-2.0
ChatTime是一个创新的多模态时间序列基础模型,将时间序列建模为外语,统一处理时间序列与文本的双模态输入/输出。
多模态融合
Transformers

C
ChengsenWang
700
4
Consistentid
MIT
ConsistentID是一个多模态细粒度身份保持的肖像生成模型,能够生成具有极高身份保真度的肖像,同时不牺牲多样性和文本可控性。
文本生成图像
其他
C
JackAILab
176
8
Music Generation Model
Apache-2.0
这是一个通过合并文本生成模型和音乐生成模型创建的混合模型,能够处理文本生成和音乐生成任务。
文本生成音频
Transformers

M
nagayama0706
27
1
Instructblip Flan T5 Xxl 8bit
MIT
BLIP-2是基于Flan T5-xxl的视觉-语言模型,通过冻结图像编码器与大型语言模型进行预训练,支持图像描述生成、视觉问答等任务。
图像生成文本
Transformers

英语
I
Mediocreatmybest
18
1
YOLO LLaMa 7B VisNav
其他
本项目整合了YOLO目标检测模型与LLaMa 2 7b大语言模型,旨在为视障人士的日常出行提供辅助导航支持。
多模态融合
Transformers

Y
LearnItAnyway
19
1
Timesformer Bert Video Captioning
基于Timesformer和BERT架构的视频字幕生成模型,能够为视频内容生成描述性字幕。
视频生成文本
Transformers

T
AlexZigma
83
3
Blip2 Flan T5 Xxl
MIT
BLIP-2是一种视觉语言模型,结合了图像编码器和大型语言模型,用于图像到文本的任务。
图像生成文本
Transformers

英语
B
LanguageMachines
22
1
Fusecap Image Captioning
MIT
FuseCap是一个专为生成语义丰富图像描述而设计的框架,利用大型语言模型生成融合图像描述。
图像生成文本
Transformers

F
noamrot
2,771
22
Raos Virtual Try On Model
Openrail
基于稳定扩散框架构建的虚拟试穿系统,融合DreamBooth训练、EfficientNetB3特征提取和OpenPose姿态检测技术
图像生成
R
gouthaml
258
41
Bbsnet
MIT
BBS-Net是一种用于RGB-D显著目标检测的深度学习模型,采用分叉骨干策略网络结构,能够有效处理RGB和深度图像数据。
图像分割
Transformers

B
RGBD-SOD
21
3
Blip2 Flan T5 Xxl
MIT
BLIP-2是一种视觉语言模型,结合了图像编码器和大型语言模型Flan T5-xxl,用于图像到文本任务。
图像生成文本
Transformers

英语
B
Salesforce
6,419
88
Blip2 Opt 2.7b Coco
MIT
BLIP-2是一个视觉-语言预训练模型,通过冻结图像编码器和大型语言模型来引导语言-图像预训练。
图像生成文本
Transformers

英语
B
Salesforce
3,900
9
Blip2 Opt 6.7b
MIT
BLIP-2是基于OPT-6.7b的视觉语言模型,通过冻结图像编码器和大型语言模型进行预训练,支持图像到文本生成和视觉问答等任务。
图像生成文本
Transformers

英语
B
Salesforce
5,871
76
Blip2 Flan T5 Xl
MIT
BLIP-2是基于Flan T5-xl的视觉语言模型,通过冻结图像编码器和大型语言模型进行预训练,支持图像描述生成和视觉问答等任务。
图像生成文本
Transformers

英语
B
Salesforce
91.77k
68
Wavyfusion
Openrail
基于稳定扩散的文本到图像生成模型,支持创意图像生成
图像生成
英语
W
wavymulder
454
170
Lilt Infoxlm Base
MIT
LiLT-InfoXLM 是一种语言无关的布局变换器模型,通过将预训练的InfoXLM与语言无关布局变换器(LiLT)结合而成,适用于结构化文档理解任务。
多模态融合
Transformers

L
SCUT-DLVCLab
110
5
Wav2vec2 2 Bart Large
该模型是基于wav2vec2-large-lv60和bart-large在librispeech_asr - clean数据集上微调的自动语音识别(ASR)模型
语音识别
Transformers

W
patrickvonplaten
31
5
Macbert Ngram Miao
一个基于Transformer架构的大语言模型,支持多种自然语言处理任务
大型语言模型
M
miaomiaomiao
22
0
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers

支持多种语言
L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers

英语
C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统
中文
R
uer
2,694
98
AIbase是一个专注于MCP服务的平台,为AI开发者提供高质量的模型上下文协议服务,助力AI应用开发。
简体中文