跨模态转换
Magma 8B GGUF
MIT
Magma-8B是一个基于GGUF格式的图像文本到文本转换模型,适用于多模态任务处理。
图像生成文本
M
Mungert
545
1
Hicode R1 Distill Gemma 12B Q8.GGUF
Apache-2.0
一个基于Apache-2.0许可的图像文本转文本模型,能够从图像中提取文本信息并转换为可编辑的文本格式。
图像生成文本
H
tonyli8623
24
1
X2I
Apache-2.0
X2I是一个多模态扩散Transformer模型,能够将多种输入模态(文本、图像、视频、音频、语音)转换为图像输出。
文本生成图像
其他
X
OPPOer
435
7
Chitrarth
其他
Chitrarth是一个多语言视觉语言模型,旨在连接视觉与语言,特别关注印度多种语言的支持。
图像生成文本
支持多种语言
C
krutrim-ai-labs
410
11
Image Captioning Vit Gpt2 Flick8k
Apache-2.0
该模型能够将输入的图像转换为描述性文本,适用于多种场景下的图像理解任务。
图像生成文本
Transformers
I
pltnhan311
18
0
Best Model ViTB16 GPT2
基于视觉变换器(ViT)和GPT-2的跨模态模型,能够为输入图像生成自然语言描述
图像生成文本
Transformers
支持多种语言
B
evlinzxxx
15
0
Git Base Minecraft
MIT
这是一个基于视觉的图像转文本模型,能够生成图像描述。
图像生成
Transformers
支持多种语言
G
orzhan
22
0
Seamless M4t V2 Large
SeamlessM4T v2 是 Facebook 发布的大规模多语言多模态机器翻译模型,支持近100种语言的语音和文本翻译。
文本生成音频
Transformers
支持多种语言
S
facebook
64.59k
821
Pix2struct Tiny Random
MIT
这是一个基于MIT许可证的图像转文本模型,能够将图像内容转换为描述性文本。
图像生成文本
Transformers
P
fxmarty
60.87k
2