Resencl OpenMind MAE
首个针对3D医学影像数据的自监督学习全面基准研究模型,提供多种预训练检查点
3D视觉
R
AnonRes
20
0
Webssl Dino2b Heavy2b 224
20亿参数的自监督视觉Transformer模型,基于严格筛选的网络图像数据训练,特别优化图表和文本理解能力
图像分类
Transformers

W
facebook
24
0
Dinov2 Base ONNX
这是facebook/dinov2-base模型的ONNX格式版本,适用于计算机视觉任务。
图像嵌入
Transformers

D
onnx-community
19
0
Midnight
MIT
Midnight-12k是一个病理学基础模型,通过自监督学习在少量数据上训练,性能媲美领先模型
图像分类
英语
M
kaiko-ai
516
4
Izanami Wav2vec2 Large
其他
基于大规模日本电视广播音频数据预训练的日语wav2vec2.0 Large模型
语音识别
日语
I
imprt
89
1
Kushinada Hubert Base
Apache-2.0
基于62,215小时日本电视广播音频数据预训练的日语语音特征提取模型
语音识别
日语
K
imprt
1,922
1
AV HuBERT MuAViC Ru
AV-HuBERT是一种视听语音识别模型,基于MuAViC多语言视听语料库训练,结合音频和视觉模态实现鲁棒性能。
音频生成文本
Transformers

A
nguyenvulebinh
91
1
Rnafm
基于非编码RNA数据、采用掩码语言建模(MLM)目标预训练的RNA基础模型
蛋白质模型
其他
R
multimolecule
6,791
1
Dna2vec
MIT
基于Transformer架构的DNA序列嵌入模型,支持序列比对和基因组学应用
分子模型
Transformers

D
roychowdhuryresearch
557
1
Voc2vec As Pt
Apache-2.0
voc2vec是一个专门为非语言人类数据设计的基础模型,基于wav2vec 2.0框架构建。
音频分类
Transformers

英语
V
alkiskoudounas
31
0
Videomaev2 Base
VideoMAEv2-Base是基于自监督学习的视频特征提取模型,采用双重掩码机制在UnlabeldHybrid-1M数据集上预训练。
视频处理
V
OpenGVLab
3,565
5
Hubert Ecg Small
面向心电图分析的自监督预训练基础模型,支持164种心血管病症检测
分子模型
Transformers

H
Edoardo-BS
535
2
TITAN
TITAN是一个多模态全切片基础模型,通过视觉自监督学习和视觉-语言对齐进行预训练,用于病理学图像分析。
多模态融合
英语
T
MahmoodLab
213.39k
37
Path Foundation
其他
Path Foundation是一个用于组织病理学应用的机器学习模型,通过自监督学习训练,能够从H&E染色切片中生成384维嵌入向量,用于高效训练分类器模型。
图像分类
英语
P
google
220
39
RS M CLIP
MIT
面向遥感领域的多语言视觉-语言预训练模型,支持10种语言的图像-文本跨模态任务
图像生成文本
支持多种语言
R
joaodaniel
248
1
Rnabert
RNABERT是基于非编码RNA(ncRNA)的预训练模型,采用掩码语言建模(MLM)和结构对齐学习(SAL)目标。
分子模型
其他
R
multimolecule
8,166
4
AV HuBERT
基于MuAViC数据集的多语言视听语音识别模型,结合音频和视觉模态实现鲁棒性能
音频生成文本
Transformers

A
nguyenvulebinh
683
3
Ijepa Vitg16 22k
I-JEPA是一种自监督学习方法,通过图像部分表征预测同一图像其他部分的表征,无需依赖手工数据变换或填充像素级细节。
图像分类
Transformers

I
facebook
14
3
Ijepa Vith16 1k
I-JEPA是一种自监督学习方法,通过图像部分表征预测同一图像其他部分的表征,无需依赖预设的手工数据变换或像素级细节填充。
图像分类
Transformers

I
facebook
153
0
Ijepa Vith14 22k
I-JEPA是一种自监督学习方法,通过图像部分表征预测同一图像其他部分的表征,无需依赖预设的手工数据变换或像素级细节填充。
图像分类
Transformers

I
facebook
48
0
Ijepa Vith14 1k
I-JEPA是一种自监督学习方法,通过图像部分表征预测同一图像其他部分的表征,无需依赖手工数据变换或填充像素级细节。
图像分类
Transformers

I
facebook
8,239
10
Dinov2.large.patch 14.reg 4
Apache-2.0
DINOv2是一个基于视觉变换器的图像特征提取模型,通过引入寄存器机制提升了特征提取能力。
图像特征提取
D
refiners
15
0
Dinov2.giant.patch 14.reg 4
Apache-2.0
DINOv2是一个基于视觉变换器(ViT)的图像特征提取模型,通过引入寄存器机制提升了特征提取能力。
图像特征提取
D
refiners
17
0
Dinov2.large.patch 14
Apache-2.0
DINOv2 large是基于自监督学习的大规模视觉特征提取模型,能够生成鲁棒的图像特征表示。
图像特征提取
D
refiners
20
0
Rad Dino Maira 2
其他
RAD-DINO-MAIRA-2 是一种基于DINOv2自监督学习训练的视觉变换器模型,专门用于编码胸部X光片图像。
图像嵌入
Transformers

R
microsoft
9,414
11
Dasheng 1.2B
Apache-2.0
大声是一个基于大规模自监督学习训练的通用音频编码器,能够捕捉跨语音、音乐和环境音等多领域的丰富音频信息。
音频分类
Transformers

D
mispeech
135
0
Wav2vec2 Base BirdSet XCL
wav2vec 2.0 是一个自监督学习框架,用于语音表示学习,能够从未标记的音频数据中学习语音特征。
音频分类
Transformers

W
DBD-research-group
177
0
Rad Dino
其他
基于自监督学习DINOv2训练的视觉Transformer模型,专门用于编码胸部X光影像
图像分类
Transformers

R
microsoft
411.96k
48
Phikon V2
其他
Phikon-v2是基于Vision Transformer Large架构的模型,采用Dinov2自监督方法在PANCAN-XL数据集上进行预训练,专门用于组织学图像分析。
图像分类
Transformers

英语
P
owkin
64.20k
15
Vqvae
MIT
VQVAE是基于VQ-VAE架构的视频生成模型,克隆自VideoGPT项目,旨在将模型转换为Hugging Face格式以便更便捷地加载。
视频处理
Transformers

V
hpcai-tech
179
6
Ahma 7B
Apache-2.0
Ahma-7B是基于Meta Llama(v1)架构的70亿参数仅解码器Transformer模型,完全使用芬兰语从头预训练。
大型语言模型
Transformers

其他
A
Finnish-NLP
201
8
Dinov2 Large
DINOv2是Facebook Research发布的视觉模型,通过自监督学习提取通用视觉特征,适用于多种下游任务。
图像嵌入
Transformers

D
Xenova
82
1
Phikon
其他
Phikon是基于iBOT训练的组织病理学自监督学习模型,主要用于从组织学图像块中提取特征。
图像分类
Transformers

英语
P
owkin
741.63k
30
Wav2vec2 Base Audioset
基于HuBERT架构的音频表征学习模型,在完整AudioSet数据集上预训练完成
音频分类
Transformers

W
ALM
2,191
0
Hubert Base Audioset
基于HuBERT架构的音频表征模型,在完整AudioSet数据集上预训练,适用于通用音频任务
音频分类
Transformers

H
ALM
345
2
Hubert Large Audioset
基于HuBERT架构的Transformer模型,在完整AudioSet数据集上进行预训练,适用于通用音频表征学习任务。
音频分类
Transformers

H
ALM
79
0
Wav2vec2 Large Audioset
基于HuBERT架构的音频表征模型,在完整AudioSet数据集上预训练,适用于通用音频任务
音频分类
Transformers

W
ALM
43
0
Pubchemdeberta Augmented
TwinBooster是一个基于PubChem生物测定语料库微调的DeBERTa V3基础模型,结合Barlow Twins自监督学习方法和梯度提升技术,用于增强分子属性预测。
分子模型
Transformers

英语
P
mschuh
25
0
Pubchemdeberta
TwinBooster是基于PubChem生物测定语料库微调的DeBERTa V3基础模型,结合Barlow Twins自监督学习方法,用于分子属性预测。
分子模型
Transformers

英语
P
mschuh
14
1
Hubert Base Korean
Apache-2.0
Hubert(Hidden-Unit BERT)是Facebook提出的一种语音表征学习模型,采用自监督学习方式直接从原始波形信号中学习语音特征。
语音识别
韩语
H
team-lucid
54
26
- 1
- 2
- 3
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers

支持多种语言
L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers

英语
C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统
中文
R
uer
2,694
98
AIbase是一个专注于MCP服务的平台,为AI开发者提供高质量的模型上下文协议服务,助力AI应用开发。
简体中文