Smolvlm 500M Anime Caption V0.2
Apache-2.0
专注于描述动漫风格图像的视觉语言模型,基于SmolVLM-500M-Base微调
图像生成文本
Safetensors
英语
S
Andres77872
17
0
Janus Pro 7B
MIT
Janus-Pro 是一种新颖的自回归框架,统一了多模态理解和生成。
文本生成图像
Transformers

J
Athagi
15
1
Vit So400m Patch14 Siglip Gap 896.pali2 10b Pt
Apache-2.0
基于SigLIP图像编码器的视觉模型,带全局平均池化,是PaliGemma2模型的一部分
文本生成图像
Transformers

V
timm
57
1
Vit So400m Patch14 Siglip Gap 448.pali Mix
Apache-2.0
基于SigLIP图像编码器的视觉语言模型,采用全局平均池化处理,适用于多模态任务。
文本生成图像
Transformers

V
timm
15
0
Vit So400m Patch14 Siglip 378.webli
Apache-2.0
基于SigLIP的视觉Transformer模型,仅包含图像编码器,采用原始注意力池化机制。
图像分类
Transformers

V
timm
82
0
Vit Large Patch16 Siglip 384.webli
Apache-2.0
基于SigLIP的视觉Transformer模型,仅包含图像编码器,采用原始注意力池化,适用于图像特征提取任务。
图像分类
Transformers

V
timm
64
0
Vit Base Patch16 Siglip 384.webli
Apache-2.0
基于SigLIP的视觉Transformer模型,仅包含图像编码器部分,采用原始注意力池化机制
图像分类
Transformers

V
timm
64
1
Vit Base Patch16 Siglip 256.webli
Apache-2.0
基于SigLIP的ViT-B-16图像编码器模型,采用原始注意力池化,适用于图像特征提取任务。
图像分类
Transformers

V
timm
269
1
Vit So400m Patch14 Siglip 224.webli
Apache-2.0
基于SigLIP的视觉Transformer模型,仅包含图像编码器部分,采用原始注意力池化机制
图像分类
Transformers

V
timm
123
1
Llm Jp 3 Vila 14b
由日本国立情报学研究所开发的大型视觉语言模型,支持日语和英语,具备强大的图像理解和文本生成能力。
图像生成文本
Safetensors
日语
L
llm-jp
106
10
FLUX.1 Dev IP Adapter
其他
FLUX.1-dev模型的IP适配器,支持将图像处理方式与文本类似,用于文本生成图像任务
文本生成图像
英语
F
InstantX
8,361
279
Nanollava 1.5
Apache-2.0
nanoLLaVA-1.5是一款参数规模在10亿以下的视觉语言模型,专为边缘设备设计,小巧但功能强大。
图像生成文本
Transformers

英语
N
qnguyen3
442
109
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers

支持多种语言
L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers

英语
C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统
中文
R
uer
2,694
98
AIbase是一个专注于MCP服务的平台,为AI开发者提供高质量的模型上下文协议服务,助力AI应用开发。
简体中文