零样本迁移学习
Openvision Vit Huge Patch14 224
Apache-2.0
OpenVision是一个全开放、高性价比的先进视觉编码器家族,专注于多模态学习。
多模态融合
O
UCSC-VLAA
27
2
Florence 2 Large DOTA V1.0 Lmmrotate
MIT
LMMRotate是一个针对旋转目标检测任务微调的大型多模态语言模型,特别适用于航拍图像分析。
图像生成文本
TensorBoard
英语
F
Qingyun
17
1
Aimv2 3b Patch14 224.apple Pt
AIM-v2是一个高效的图像编码器模型,兼容timm框架,适用于计算机视觉任务。
图像分类
Transformers
A
timm
50
0
Paligemma2 10b Pt 896
PaliGemma 2是Google推出的视觉语言模型(VLM),融合Gemma 2能力,支持图像和文本输入生成文本输出
图像生成文本
Transformers
P
google
233
32
Paligemma2 10b Pt 448
PaliGemma 2是Google推出的升级版视觉语言模型(VLM),融合Gemma 2能力,支持图像和文本输入生成文本输出。
图像生成文本
Transformers
P
google
282
14
Paligemma2 3b Pt 448
PaliGemma 2是基于Gemma 2的视觉语言模型,支持图像和文本输入,生成文本输出,适用于多种视觉语言任务。
图像生成文本
Transformers
P
google
3,412
45
Aimv2 Large Patch14 336 Distilled
AIMv2是基于多模态自回归目标预训练的视觉模型系列,在多模态理解基准测试中表现优异
图像分类
A
apple
37
3
Ssast Small Patch Audioset 16 16
Bsd-3-clause
基于AudioSet和Librispeech预训练的音频分类模型,采用视觉变换器架构处理音频频谱图
音频分类
Transformers
S
Simon-Kotchou
2,408
1
Pmc Vit L 14
基于OpenAI的ViT-L-14模型,使用PMC_OA_beta和roco数据集进行微调的视觉语言模型,专注于生物医学领域的文本到图像任务
文本生成图像
英语
P
ryanyip7777
523
4
Segformer B0 Finetuned Food
Apache-2.0
基于 Transformers 库的图像分割模型,支持多种图像分割任务。
图像分割
Transformers
英语
S
prem-timsina
20
5
Autotrain Vision Tcg 40463105224
这是一个通过AutoTrain训练的多类别图像分类模型,在验证集上表现出色,所有评估指标均达到1.0。
图像分类
Transformers
A
micazevedo
16
0
Bloomz 7b1
Openrail
BLOOMZ-7B1 是一个多语言、多任务的大规模语言模型,支持超过40种语言和多种编程语言,适用于文本生成、情感分析等多种自然语言处理任务。
大型语言模型
Transformers
支持多种语言
B
bigscience
27.35k
143
Wav2vec2 Xlsr 53 Espeak Cv Ft
Apache-2.0
该模型是基于wav2vec2-large-xlsr-53预训练模型在CommonVoice数据集上微调的多语言音素识别模型,支持多种语言的音素标签识别。
语音识别
Transformers
W
facebook
315.39k
31
Wav2vec2 Lv 60 Espeak Cv Ft
Apache-2.0
该模型是基于Wav2Vec2-Large-LV60预训练模型,在CommonVoice数据集上进行微调,用于多语言音素识别。
语音识别
Transformers
其他
W
facebook
18.77k
43
Mt5 Small
Apache-2.0
mT5是T5模型的多语言变体,支持101种语言,基于mC4语料库进行预训练,适用于多语言文本生成和理解任务。
大型语言模型
支持多种语言
M
google
139.42k
149