图像理解
Internlm Xcomposer2d5 Ol 7b
其他
InternLM-XComposer2.5-OL是一个支持长时流式视频与音频交互的全方位多模态系统。
文本生成图像
Safetensors
I
internlm
79
49
Llava Critic 7b Hf
这是一个与transformers兼容的视觉语言模型,具备图像理解和文本生成能力
文本生成图像
Transformers
L
FuryMartin
21
1
Llava Saiga 8b
Apache-2.0
LLaVA-Saiga-8b是基于IlyaGusev/saiga_llama3_8b模型开发的视觉-语言模型(VLM),主要适配俄语任务,但仍具备英语处理能力。
图像生成文本
Transformers
支持多种语言
L
deepvk
205
16
Paligemma Longprompt V1 Safetensors
Gpl-3.0
实验性视觉模型,融合关键词标签与长文本描述生成图像提示词
图像生成文本
Transformers
P
mnemic
38
1
Llava Calm2 Siglip
Apache-2.0
llava-calm2-siglip 是一个实验性的视觉语言模型,能够用日语和英语回答关于图像的问题。
图像生成文本
Transformers
支持多种语言
L
cyberagent
3,930
25
Paligemma 3B Chat V0.2
基于google/paligemma-3b-mix-448微调的多模态对话模型,专为多轮对话场景优化
文本生成图像
Transformers
支持多种语言
P
BUAADreamer
80
9
Paligemma Vqav2
该模型是基于google/paligemma-3b-pt-224在VQAv2数据集的一小部分上进行微调的版本,专注于视觉问答任务。
文本生成图像
Transformers
P
merve
168
13
Llava Llama 3 8b V1 1 GGUF
基于Meta-Llama-3-8B-Instruct和CLIP-ViT-Large-patch14-336微调的LLaVA模型,支持图像转文本任务
图像生成文本
L
MoMonir
138
5
Llava Phi 3 Mini Hf
基于Phi-3-mini-4k-instruct和CLIP-ViT-Large-patch14-336微调的LLaVA模型,支持图像转文本任务
图像生成文本
Transformers
L
xtuner
2,322
49
Blip Finetuned Fashion
Bsd-3-clause
该模型是基于Salesforce/blip-vqa-base微调的视觉问答模型,专注于时尚领域
文本生成图像
Transformers
B
Ornelas
2,281
0
Eris PrimeV3 Vision 7B
其他
Eris Prime V2是一个7B参数规模的多模态语言模型,支持视觉功能,需配合Koboldcpp使用。
文本生成图像
E
ChaoticNeutrals
118
8
Vit Medium Patch16 Clip 224.tinyclip Yfcc15m
MIT
基于ViT架构的CLIP模型,用于零样本图像分类任务
图像分类
V
timm
144
0
Candle Llava V1.6 Mistral 7b
Apache-2.0
LLaVA 是一个视觉语言模型,能够理解和生成与图像相关的文本内容。
图像生成文本
C
DanielClough
73
0
Tecoa4 Clip
MIT
TeCoA是基于OpenAI CLIP初始化的视觉语言模型,通过监督式对抗微调提升鲁棒性
文本生成图像
T
chs20
51
1
Llava V1.6 Vicuna 13b Gguf
Apache-2.0
LLaVA是基于Transformer架构的开源多模态聊天机器人,通过量化技术提供多种体积与质量平衡的模型版本。
图像生成文本
L
cjpais
630
9
Ggml Llava V1.5 7b
Apache-2.0
LLaVA 是一个视觉语言模型,能够理解和生成与图像相关的文本内容。
图像生成文本
G
y10ab1
44
2
Pix2struct Vizwizvqa Base
Apache-2.0
这是一个基于Apache-2.0许可证的视觉问答模型,支持英文语言,专注于处理视觉相关的问答任务。
文本生成图像
Transformers
英语
P
nanom
16
0
Llava V1.5 13B GPTQ
Llava v1.5 13B是由Haotian Liu开发的多模态模型,结合了视觉和语言能力,能够理解和生成基于图像和文本的内容。
文本生成图像
Transformers
L
TheBloke
131
37
Finetuned Git Large Chest Xrays
MIT
一个基于MIT许可证的视觉语言模型,专注于从图像生成文本描述。
图像生成
Transformers
支持多种语言
F
daniyal214
15
0
Mplug Owl Llama 7b
Apache-2.0
mPLUG-Owl是一个多模态大语言模型,基于LLaMA-7B架构,支持图像理解和文本生成任务。
图像生成文本
Transformers
英语
M
MAGAer13
327
16
Taiyi BLIP 750M Chinese
Apache-2.0
一个专注于将图像内容转换为文本描述的模型,支持中文处理。
文字识别
Transformers
中文
T
IDEA-CCNL
180
14
Beitbase
基于未知数据集微调的BEiT基础模型,具体用途和性能信息暂不可用
大型语言模型
Transformers
B
ivensamdh
15
0
Upernet Convnext Large
MIT
UperNet是一个语义分割框架,结合ConvNeXt大型骨干网络,用于像素级语义标签预测。
图像分割
Transformers
英语
U
openmmlab
23.09k
0