Resencl OpenMind SimCLR
首个针对3D医学影像数据的自监督学习全面基准研究模型
3D视觉
R
AnonRes
16
0
Resencl OpenMind VoCo
首个针对3D医学影像数据的自监督学习全面基准研究模型
3D视觉
R
AnonRes
16
0
Prophetnet Large Uncased
ProphetNet是一种序列到序列学习预训练语言模型,采用未来n元预测的自监督目标,能够预测更多未来标记
大型语言模型
英语
P
microsoft
5,528
5
Voc2vec
Apache-2.0
voc2vec是专为非语言人类数据设计的基础模型,基于wav2vec 2.0框架构建,预训练数据集涵盖约125小时非语言音频。
音频分类
Transformers

英语
V
alkiskoudounas
223
2
Hubert Ecg Large
面向广泛可扩展心脏应用的自监督基础模型,训练数据包含910万份12导联心电图,涵盖164种心血管疾病
分子模型
Transformers

H
Edoardo-BS
168
1
Lwm
LWM是首个无线通信领域的基础模型,作为通用特征提取器开发,能够从无线信道数据中提取精细表征。
物理学模型
Transformers

L
wi-lab
137
3
Dasheng Base
Apache-2.0
大规模通用音频编码器,通过自监督学习训练,支持语音、音乐和环境音等多领域音频信息处理
音频分类
Transformers

D
mispeech
273
1
Berturk Legal
MIT
BERTurk-Legal是一个基于Transformer架构的语言模型,专门用于土耳其法律领域的先前案例检索任务。
大型语言模型
Transformers

其他
B
KocLab-Bilkent
382
6
Molformer XL Both 10pct
Apache-2.0
MoLFormer是基于ZINC和PubChem中11亿分子SMILES字符串预训练的化学语言模型,本版本使用两个数据集各10%样本训练
分子模型
Transformers

M
ibm-research
171.96k
19
Mert Base
MERT是一种基于自监督学习的声学音乐理解模型,通过教师模型提供伪标签进行预训练。
音频分类
Transformers

M
yangwang825
26
0
Videomae Small Finetuned Ssv2
VideoMAE是基于掩码自编码器(MAE)的视频自监督预训练模型,在Something-Something V2数据集上微调用于视频分类任务。
视频处理
Transformers

V
MCG-NJU
140
0
Regnety 1280.seer
其他
RegNetY-128GF特征提取模型,采用SEER方法在20亿张随机网络图片上进行自监督预训练
图像分类
Transformers

R
timm
62
0
Regnety 640.seer
其他
RegNetY-64GF特征/骨干模型,采用SEER方法在20亿张随机互联网图像上自监督预训练
图像分类
Transformers

R
timm
32
0
Regnety 320.seer
其他
RegNetY-32GF特征提取模型,采用SEER方法在20亿张随机网络图片上预训练,适用于图像分类和特征提取任务
图像分类
Transformers

R
timm
19
0
Convnextv2 Pico.fcmae
ConvNeXt-V2自监督特征表示模型,采用全卷积掩码自编码器框架(FCMAE)预训练,适用于图像分类和特征提取任务。
图像分类
Transformers

C
timm
82
0
Convnextv2 Large.fcmae
基于ConvNeXt-V2的自监督特征表示模型,采用全卷积掩码自编码器框架(FCMAE)进行预训练,适用于图像分类和特征提取任务。
图像分类
Transformers

C
timm
314
0
Vit Msn Large 7
Apache-2.0
该视觉Transformer模型采用MSN方法预训练,在少样本场景下表现出色,适用于图像分类等任务
图像分类
Transformers

V
facebook
67
2
Vit Msn Base 4
Apache-2.0
该视觉Transformer模型采用MSN方法预训练,在少样本场景下表现优异,适用于图像分类等任务
图像分类
Transformers

V
facebook
62
1
Vit Msn Large
Apache-2.0
采用MSN方法预训练的视觉Transformer模型,在少样本场景下表现优异
图像分类
Transformers

V
facebook
48
1
Vit Msn Small
Apache-2.0
该视觉Transformer模型采用MSN方法进行预训练,适用于少样本学习场景,特别适合图像分类任务。
图像分类
Transformers

V
facebook
3,755
1
Videomae Base Short Ssv2
VideoMAE是基于掩码自编码器(MAE)的视频自监督预训练模型,在Something-Something-v2数据集上进行了800轮预训练。
视频处理
Transformers

V
MCG-NJU
112
2
Swinv2 Large Patch4 Window12to16 192to256 22kto1k Ft
Apache-2.0
Swin Transformer v2是一种视觉Transformer模型,通过分层特征图和局部窗口自注意力机制实现高效的图像分类和密集识别任务。
图像分类
Transformers

S
microsoft
812
4
Swinv2 Base Patch4 Window16 256
Apache-2.0
Swin Transformer v2是一种视觉Transformer模型,通过分层特征图和局部窗口自注意力机制实现高效的图像分类和密集识别任务。
图像分类
Transformers

S
microsoft
1,853
3
Swinv2 Base Patch4 Window8 256
Apache-2.0
Swin Transformer v2是一种视觉Transformer模型,通过分层特征图和局部窗口自注意力机制实现高效的图像分类和密集识别任务。
图像分类
Transformers

S
microsoft
16.61k
7
Swinv2 Small Patch4 Window8 256
Apache-2.0
Swin Transformer v2 是一种视觉Transformer模型,通过分层特征图和局部窗口自注意力机制实现高效的图像处理。
图像分类
Transformers

S
microsoft
1,836
0
Swinv2 Tiny Patch4 Window8 256
Apache-2.0
Swin Transformer v2是基于ImageNet-1k预训练的视觉Transformer模型,采用分层特征图和局部窗口自注意力机制,具有线性计算复杂度。
图像分类
Transformers

S
microsoft
25.04k
10
Viwav2vec2 Base 3k
该模型是基于3千小时越南语语音数据预训练的Wav2Vec2基础模型,适用于越南语语音识别任务,需在下游任务上微调后使用。
语音识别
Transformers

其他
V
dragonSwing
41
2
Regnet Y 1280 Seer In1k
Apache-2.0
基于ImageNet-1k训练的RegNet图像分类模型,采用自监督预训练和微调方法
图像分类
Transformers

R
facebook
18
1
Regnet Y 640 Seer In1k
Apache-2.0
基于imagenet-1k训练的RegNet模型,采用自监督方式在数十亿张随机网络图像上预训练后微调
图像分类
Transformers

R
facebook
21
0
Dit Large Finetuned Rvlcdip
基于IIT-CDIP预训练并在RVL-CDIP上微调的文档图像分类模型,采用Transformer架构
图像分类
Transformers

D
microsoft
67
8
Dit Base Finetuned Rvlcdip
DiT是一种基于Transformer的文档图像分类模型,在IIT-CDIP数据集上预训练并在RVL-CDIP数据集上微调
图像分类
Transformers

D
microsoft
31.99k
30
Wavlm Base
WavLM是微软开发的大规模自监督预训练语音模型,基于16kHz采样的语音音频进行预训练,适用于全栈语音处理任务。
语音识别
Transformers

英语
W
microsoft
28.33k
7
Wavlm Base Plus
WavLM是由微软开发的大规模自监督预训练语音模型,基于16kHz采样的语音音频进行预训练,适用于多种语音处理任务。
语音识别
Transformers

英语
W
microsoft
673.32k
31
Beit Large Patch16 224
Apache-2.0
BEiT是一种基于视觉Transformer(ViT)架构的图像分类模型,通过自监督学习在ImageNet-21k上预训练,并在ImageNet-1k上微调。
图像分类
B
microsoft
222.46k
1
Beit Large Patch16 512
Apache-2.0
BEiT是一种基于视觉Transformer的图像分类模型,通过自监督方式在ImageNet-21k上预训练,并在ImageNet-1k上微调。
图像分类
B
microsoft
683
11
Xlm Roberta Xxl
MIT
XLM-RoBERTa-XL 是一个在包含100种语言的2.5TB过滤CommonCrawl数据上预训练的多语言模型,基于RoBERTa架构的超大版本。
大型语言模型
Transformers

支持多种语言
X
facebook
13.19k
15
Beit Base Patch16 224
Apache-2.0
BEiT是一种基于图像变换器的视觉模型,采用类似BERT的自监督预训练方法,先在ImageNet-22k上预训练和微调,再在ImageNet-1k上微调。
图像分类
B
nielsr
28
0
Xlm Align Base
XLM-Align是一个支持94种语言的预训练跨语言模型,通过自标注词对齐改进预训练跨语言模型。
大型语言模型
Transformers

X
microsoft
354
9
Core Clinical Mortality Prediction
CORe模型基于BioBERT架构,专门针对临床记录、疾病描述和医学文献进行了预训练,用于预测患者院内死亡风险。
文本分类
Transformers

英语
C
DATEXIS
924
3
Beit Large Patch16 384
Apache-2.0
BEiT是一种基于视觉Transformer的图像分类模型,通过自监督方式在ImageNet-21k上预训练,并在ImageNet-1k上微调。
图像分类
B
microsoft
44
0
- 1
- 2
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers

支持多种语言
L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers

英语
C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统
中文
R
uer
2,694
98
AIbase是一个专注于MCP服务的平台,为AI开发者提供高质量的模型上下文协议服务,助力AI应用开发。
简体中文