Openvision Vit So400m Patch14 384
Apache-2.0
OpenVision是一个完全开放、经济高效的高级视觉编码器家族,用于多模态学习。
多模态融合
O
UCSC-VLAA
238
0
Openvision Vit Base Patch8 384
Apache-2.0
OpenVision是一个完全开源且经济高效的先进视觉编码器家族,专为多模态学习设计。
多模态融合
Transformers

O
UCSC-VLAA
47
0
Openvision Vit Base Patch16 160
Apache-2.0
OpenVision是一个完全开源、经济高效的高级视觉编码器家族,用于多模态学习。
多模态融合
O
UCSC-VLAA
15
0
Openvision Vit Small Patch8 384
Apache-2.0
OpenVision是一个全开放、高性价比的先进视觉编码器家族,专注于多模态学习。
多模态融合
O
UCSC-VLAA
21
0
Openvision Vit Small Patch16 224
Apache-2.0
OpenVision是一个全开放、高性价比的先进视觉编码器家族,专注于多模态学习。
图像增强
O
UCSC-VLAA
17
0
Med Dis B
一个基于PyTorch的动作识别模型,适用于机器人技术领域
视频处理
M
therarelab
14
0
Wedgit Stack Single Fixed
一个基于扩散策略的机器人控制模型,通过PyTorchModelHubMixin集成发布
多模态融合
W
jclinton1
76
0
Instruct CLIP
Apache-2.0
InstructCLIP是一种通过对比学习自动优化数据的模型,旨在提升指令引导的图像编辑效果。
文本生成图像
英语
I
SherryXTChen
74
2
Genmedclip B 16 PMB
MIT
基于open_clip库的零样本图像分类模型,专注于医疗领域的图像分析
图像分类
G
wisdomik
408
0
Genmedclip
MIT
GenMedClip 是一个基于 open_clip 库的零样本图像分类模型,专注于医学图像分析。
图像分类
G
wisdomik
40
0
Moe LLaVA Qwen 1.8B 4e
Apache-2.0
MoE-LLaVA是一种基于专家混合架构的大型视觉语言模型,通过稀疏激活参数实现高效的多模态学习
文本生成图像
Transformers

M
LanguageBind
176
14
Echo Clip R
MIT
一个基于开放剪辑库的零样本图像分类模型,支持多种视觉任务
图像分类
E
mkaichristensen
547
4
Git 20
MIT
基于微软GIT框架的多模态模型,专注于从学生作业图像中提取文本并生成教师反馈
图像生成文本
Transformers

支持多种语言
G
uf-aice-lab
18
1
Git Base Textvqa
MIT
基于microsoft/git-base-textvqa在textvqa数据集上微调的视觉问答模型,擅长处理包含文本的图像问答任务
大型语言模型
Transformers

其他
G
Hellraiser24
19
0
Dof Passport 1
MIT
基于naver-clova-ix/donut-base微调的模型,具体用途未明确说明
图像生成文本
Transformers

D
Sebabrata
16
0
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers

支持多种语言
L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers

英语
C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统
中文
R
uer
2,694
98
AIbase是一个专注于MCP服务的平台,为AI开发者提供高质量的模型上下文协议服务,助力AI应用开发。
简体中文