自监督学习

# 自监督学习

Vjepa2 Vitl Fpc64 256

V-JEPA 2是Meta旗下FAIR团队开发的前沿视频理解模型，扩展了VJEPA的预训练目标，具备业界领先的视频理解能力。

Resencl OpenMind MAE

首个针对3D医学影像数据的自监督学习全面基准研究模型，提供多种预训练检查点

Webssl Dino2b Heavy2b 224

20亿参数的自监督视觉Transformer模型，基于严格筛选的网络图像数据训练，特别优化图表和文本理解能力

Dinov2 Base ONNX

这是facebook/dinov2-base模型的ONNX格式版本，适用于计算机视觉任务。

Midnight-12k是一个病理学基础模型，通过自监督学习在少量数据上训练，性能媲美领先模型

图像分类英语

Izanami Wav2vec2 Large

基于大规模日本电视广播音频数据预训练的日语wav2vec2.0 Large模型

语音识别日语

Kushinada Hubert Base

基于62,215小时日本电视广播音频数据预训练的日语语音特征提取模型

语音识别日语

AV HuBERT MuAViC Ru

AV-HuBERT是一种视听语音识别模型，基于MuAViC多语言视听语料库训练，结合音频和视觉模态实现鲁棒性能。

音频生成文本

AV HuBERT MuAViC Multilingual

基于MuAViC数据集训练的视听语音识别模型，结合音频和视觉模态提升嘈杂环境下的识别性能

音频生成文本

基于非编码RNA数据、采用掩码语言建模（MLM）目标预训练的RNA基础模型

蛋白质模型其他

基于Transformer架构的DNA序列嵌入模型，支持序列比对和基因组学应用

roychowdhuryresearch

voc2vec是一个专门为非语言人类数据设计的基础模型，基于wav2vec 2.0框架构建。

Transformers 英语

Videomaev2 Base

VideoMAEv2-Base是基于自监督学习的视频特征提取模型，采用双重掩码机制在UnlabeldHybrid-1M数据集上预训练。

Hubert Ecg Small

面向心电图分析的自监督预训练基础模型，支持164种心血管病症检测

TITAN是一个多模态全切片基础模型，通过视觉自监督学习和视觉-语言对齐进行预训练，用于病理学图像分析。

多模态融合英语

Path Foundation

Path Foundation是一个用于组织病理学应用的机器学习模型，通过自监督学习训练，能够从H&E染色切片中生成384维嵌入向量，用于高效训练分类器模型。

图像分类英语

面向遥感领域的多语言视觉-语言预训练模型，支持10种语言的图像-文本跨模态任务

图像生成文本支持多种语言

RNABERT是基于非编码RNA（ncRNA）的预训练模型，采用掩码语言建模（MLM）和结构对齐学习（SAL）目标。

分子模型其他

基于MuAViC数据集的多语言视听语音识别模型，结合音频和视觉模态实现鲁棒性能

音频生成文本

Ijepa Vitg16 22k

I-JEPA是一种自监督学习方法，通过图像部分表征预测同一图像其他部分的表征，无需依赖手工数据变换或填充像素级细节。

Ijepa Vith16 1k

I-JEPA是一种自监督学习方法，通过图像部分表征预测同一图像其他部分的表征，无需依赖预设的手工数据变换或像素级细节填充。

Ijepa Vith14 22k

I-JEPA是一种自监督学习方法，通过图像部分表征预测同一图像其他部分的表征，无需依赖预设的手工数据变换或像素级细节填充。

Ijepa Vith14 1k

I-JEPA是一种自监督学习方法，通过图像部分表征预测同一图像其他部分的表征，无需依赖手工数据变换或填充像素级细节。

Dinov2.large.patch 14.reg 4

DINOv2是一个基于视觉变换器的图像特征提取模型，通过引入寄存器机制提升了特征提取能力。

图像特征提取

Dinov2.giant.patch 14.reg 4

DINOv2是一个基于视觉变换器(ViT)的图像特征提取模型，通过引入寄存器机制提升了特征提取能力。

图像特征提取

Dinov2.large.patch 14

DINOv2 large是基于自监督学习的大规模视觉特征提取模型，能够生成鲁棒的图像特征表示。

图像特征提取

Rad Dino Maira 2

RAD-DINO-MAIRA-2 是一种基于DINOv2自监督学习训练的视觉变换器模型，专门用于编码胸部X光片图像。

大声是一个基于大规模自监督学习训练的通用音频编码器，能够捕捉跨语音、音乐和环境音等多领域的丰富音频信息。

Wav2vec2 Base BirdSet XCL

wav2vec 2.0 是一个自监督学习框架，用于语音表示学习，能够从未标记的音频数据中学习语音特征。

DBD-research-group

基于自监督学习DINOv2训练的视觉Transformer模型，专门用于编码胸部X光影像

Phikon-v2是基于Vision Transformer Large架构的模型，采用Dinov2自监督方法在PANCAN-XL数据集上进行预训练，专门用于组织学图像分析。

Transformers 英语

VQVAE是基于VQ-VAE架构的视频生成模型，克隆自VideoGPT项目，旨在将模型转换为Hugging Face格式以便更便捷地加载。

Ahma-7B是基于Meta Llama(v1)架构的70亿参数仅解码器Transformer模型，完全使用芬兰语从头预训练。

大型语言模型

Transformers 其他

DINOv2是Facebook Research发布的视觉模型，通过自监督学习提取通用视觉特征，适用于多种下游任务。

Vit Small Patch8 224.lunit Dino

基于视觉变换器（ViT）的图像分类模型，在3300万个组织学切片上使用DINO自监督学习方法训练，适用于病理图像分类任务。

Phikon是基于iBOT训练的组织病理学自监督学习模型，主要用于从组织学图像块中提取特征。

Transformers 英语

Wav2vec2 Base Audioset

基于HuBERT架构的音频表征学习模型，在完整AudioSet数据集上预训练完成

Hubert Base Audioset

基于HuBERT架构的音频表征模型，在完整AudioSet数据集上预训练，适用于通用音频任务

Hubert Large Audioset

基于HuBERT架构的Transformer模型，在完整AudioSet数据集上进行预训练，适用于通用音频表征学习任务。

Wav2vec2 Large Audioset

基于HuBERT架构的音频表征模型，在完整AudioSet数据集上预训练，适用于通用音频任务

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24