多模态转换
Index Anisora 5B Diffusers
Apache-2.0
基于Diffusers实现的图像生成视频模型,5B参数规模
文本生成视频
I
Disty0
82
1
Hunyuanvideo I2V
腾讯HunyuanVideo-I2V是一个基于Diffusers的图像转视频模型,能够将静态图像转换为动态视频。
图像生成文本
H
hunyuanvideo-community
496
2
Minicpm O 2 6 GGUF
MiniCPM-o-2_6 是一个多模态转换模型,支持多种语言,适用于多种任务。
文本生成图像
其他
M
second-state
506
6
Rexseek 3B
其他
这是一个图像文本到文本的转换模型,能够处理图像和文本输入,生成相应的文本输出。
文本生成图像
Transformers
R
IDEA-Research
186
4
MM RLHF Reward 7B Llava Ov Qwen
MIT
这是一个图像文本到文本的转换模型,能够将输入的图像和文本转换为新的文本输出。
图像生成文本
Transformers
M
yifanzhang114
25
1
Ioskef 23 11 06
MIT
这是为OMEGA Labs与Bittensor合作的任意到任意子网提供的模型检查点,旨在实现通用人工智能任务。
大型语言模型
其他
I
louistvc
0
0
Kljrklqejr 23 11 24
MIT
由OMEGA Labs与Bittensor合作开发的任意到任意转换模型,专注于人工通用智能领域。
大型语言模型
其他
K
iekei
0
0
Kljrklqejr 23 11 23
MIT
由OMEGA Labs与Bittensor合作开发的Any-to-Any模型,支持多种任务转换
大型语言模型
其他
K
iekei
0
0
Ioskef 23 11 05
MIT
OMEGA Labs与Bittensor合作的任意到任意子网模型,专注于通用人工智能任务。
大型语言模型
其他
I
louistvc
0
0
Vit GPT2 Image Captioning Model
基于ViT-GPT2架构的图像描述生成模型,能够将输入图像转换为描述性文本
图像生成文本
Transformers
V
motheecreator
142
0
Vchitect 2.0 2B
Apache-2.0
Vchitect-2.0是一个用于扩展视频扩散模型的并行Transformer模型,专注于文本生成视频和图像生成视频任务。
视频处理
V
Vchitect
50
38
4M 21 B
其他
4M是一个通过标记化与掩码技术实现多模态扩展的'任意到任意'基础模型训练框架
多模态融合
4
EPFL-VILAB
324
6
Image Model
这是一个基于transformers的图像到文本转换模型,具体功能需进一步补充
图像生成文本
Transformers
I
Mouwiya
15
0
4M 7 SR L CC12M
其他
4M是一个可扩展的多模态掩码建模框架,支持任意到任意模态转换,覆盖数十种模态和任务。
多模态融合
4
EPFL-VILAB
26
2
4M 7 B CC12M
其他
4M是一个训练'任意到任意'多模态基础模型的框架,通过标记化和掩码技术扩展到多种不同模态。
多模态融合
4
EPFL-VILAB
209
16
Spydazwebai Image Projectors
一个基于 Transformers 库的图像转文本模型,支持将图像内容转换为描述性文本,适用于艺术领域。
图像生成文本
支持多种语言
S
LeroyDyer
560
1
Hashtaggenerater
Flickr30k 是一个用于图像到文本任务的英文数据集,常用于图像描述生成模型的训练和评估。
图像生成文本
Transformers
英语
H
kusumakar
24
2