Internlm Xcomposer2d5 Ol 7b
其他
InternLM-XComposer2.5-OL是一个支持长时流式视频与音频交互的全方位多模态系统。
文本生成图像
Safetensors
I
internlm
79
49
Llava Critic 7b Hf
这是一个与transformers兼容的视觉语言模型,具备图像理解和文本生成能力
文本生成图像
Transformers

L
FuryMartin
21
1
Llava Saiga 8b
Apache-2.0
LLaVA-Saiga-8b是基于IlyaGusev/saiga_llama3_8b模型开发的视觉-语言模型(VLM),主要适配俄语任务,但仍具备英语处理能力。
图像生成文本
Transformers

支持多种语言
L
deepvk
205
16
Paligemma Longprompt V1 Safetensors
Gpl-3.0
实验性视觉模型,融合关键词标签与长文本描述生成图像提示词
图像生成文本
Transformers

P
mnemic
38
1
Llava Calm2 Siglip
Apache-2.0
llava-calm2-siglip 是一个实验性的视觉语言模型,能够用日语和英语回答关于图像的问题。
图像生成文本
Transformers

支持多种语言
L
cyberagent
3,930
25
Paligemma 3B Chat V0.2
基于google/paligemma-3b-mix-448微调的多模态对话模型,专为多轮对话场景优化
文本生成图像
Transformers

支持多种语言
P
BUAADreamer
80
9
Paligemma Vqav2
该模型是基于google/paligemma-3b-pt-224在VQAv2数据集的一小部分上进行微调的版本,专注于视觉问答任务。
文本生成图像
Transformers

P
merve
168
13
Llava Llama 3 8b V1 1 GGUF
基于Meta-Llama-3-8B-Instruct和CLIP-ViT-Large-patch14-336微调的LLaVA模型,支持图像转文本任务
图像生成文本
L
MoMonir
138
5
Llava Phi 3 Mini Hf
基于Phi-3-mini-4k-instruct和CLIP-ViT-Large-patch14-336微调的LLaVA模型,支持图像转文本任务
图像生成文本
Transformers

L
xtuner
2,322
49
Blip Finetuned Fashion
Bsd-3-clause
该模型是基于Salesforce/blip-vqa-base微调的视觉问答模型,专注于时尚领域
文本生成图像
Transformers

B
Ornelas
2,281
0
Eris PrimeV3 Vision 7B
其他
Eris Prime V2是一个7B参数规模的多模态语言模型,支持视觉功能,需配合Koboldcpp使用。
文本生成图像
E
ChaoticNeutrals
118
8
Vit Medium Patch16 Clip 224.tinyclip Yfcc15m
MIT
基于ViT架构的CLIP模型,用于零样本图像分类任务
图像分类
V
timm
144
0
Candle Llava V1.6 Mistral 7b
Apache-2.0
LLaVA 是一个视觉语言模型,能够理解和生成与图像相关的文本内容。
图像生成文本
C
DanielClough
73
0
Tecoa4 Clip
MIT
TeCoA是基于OpenAI CLIP初始化的视觉语言模型,通过监督式对抗微调提升鲁棒性
文本生成图像
T
chs20
51
1
Llava V1.6 Vicuna 13b Gguf
Apache-2.0
LLaVA是基于Transformer架构的开源多模态聊天机器人,通过量化技术提供多种体积与质量平衡的模型版本。
图像生成文本
L
cjpais
630
9
Ggml Llava V1.5 7b
Apache-2.0
LLaVA 是一个视觉语言模型,能够理解和生成与图像相关的文本内容。
图像生成文本
G
y10ab1
44
2
Pix2struct Vizwizvqa Base
Apache-2.0
这是一个基于Apache-2.0许可证的视觉问答模型,支持英文语言,专注于处理视觉相关的问答任务。
文本生成图像
Transformers

英语
P
nanom
16
0
Llava V1.5 13B GPTQ
Llava v1.5 13B是由Haotian Liu开发的多模态模型,结合了视觉和语言能力,能够理解和生成基于图像和文本的内容。
文本生成图像
Transformers

L
TheBloke
131
37
Finetuned Git Large Chest Xrays
MIT
一个基于MIT许可证的视觉语言模型,专注于从图像生成文本描述。
图像生成
Transformers

支持多种语言
F
daniyal214
15
0
Mplug Owl Llama 7b
Apache-2.0
mPLUG-Owl是一个多模态大语言模型,基于LLaMA-7B架构,支持图像理解和文本生成任务。
图像生成文本
Transformers

英语
M
MAGAer13
327
16
Taiyi BLIP 750M Chinese
Apache-2.0
一个专注于将图像内容转换为文本描述的模型,支持中文处理。
文字识别
Transformers

中文
T
IDEA-CCNL
180
14
Beitbase
基于未知数据集微调的BEiT基础模型,具体用途和性能信息暂不可用
大型语言模型
Transformers

B
ivensamdh
15
0
Upernet Convnext Large
MIT
UperNet是一个语义分割框架,结合ConvNeXt大型骨干网络,用于像素级语义标签预测。
图像分割
Transformers

英语
U
openmmlab
23.09k
0
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers

支持多种语言
L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers

英语
C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统
中文
R
uer
2,694
98
AIbase是一个专注于MCP服务的平台,为AI开发者提供高质量的模型上下文协议服务,助力AI应用开发。
简体中文