聚合全球优质AI模型 赋能下一代应用开发
调用全球AI模型,从通用到垂直,应有尽有

9349个模型符合条件

热门
最新
点赞量高
Nsfw Image Detection
Apache-2.0
基于ViT架构的NSFW图像分类模型,通过监督学习在ImageNet-21k数据集上预训练,并在80,000张图像上微调,用于区分正常和NSFW内容。
图像分类
Transformers
N
Falconsai
82.4M
588
Fairface Age Image Detection
Apache-2.0
基于Vision Transformer架构的图像分类模型,在ImageNet-21k数据集上预训练,适用于多类别图像分类任务
图像分类
Transformers
F
dima806
76.6M
10
Clip Vit Large Patch14
CLIP是由OpenAI开发的视觉-语言模型,通过对比学习将图像和文本映射到共享的嵌入空间,支持零样本图像分类
图像生成文本
C
openai
44.7M
1,710
Chronos T5 Small
Apache-2.0
Chronos是基于语言模型架构的预训练时间序列预测模型家族,通过量化和缩放将时间序列转化为token序列进行训练,适用于概率预测任务。
气候模型
Transformers
C
amazon
22.8M
66
Roberta Large
MIT
基于掩码语言建模目标预训练的大型英语语言模型,采用改进的BERT训练方法
大型语言模型
英语
R
FacebookAI
19.4M
212
Distilbert Base Uncased
Apache-2.0
DistilBERT是BERT基础模型的蒸馏版本,在保持相近性能的同时更轻量高效,适用于序列分类、标记分类等自然语言处理任务。
大型语言模型
英语
D
distilbert
11.1M
669
Clipseg Rd64 Refined
Apache-2.0
CLIPSeg是一种基于文本与图像提示的图像分割模型,支持零样本和单样本图像分割任务。
图像分割
Transformers
C
CIDAS
10.0M
122
Xlm Roberta Base
MIT
XLM-RoBERTa是基于100种语言的2.5TB过滤CommonCrawl数据预训练的多语言模型,采用掩码语言建模目标进行训练。
大型语言模型
支持多种语言
X
FacebookAI
9.6M
664
Roberta Base
MIT
基于Transformer架构的英语预训练模型,通过掩码语言建模目标在海量文本上训练,支持文本特征提取和下游任务微调
大型语言模型
英语
R
FacebookAI
9.3M
488
Vit Face Expression
Apache-2.0
基于视觉变换器(ViT)微调的面部情绪识别模型,支持7种表情分类
人脸相关
Transformers
V
trpakov
9.2M
66
Chronos Bolt Small
Apache-2.0
Chronos-Bolt是一系列基于T5架构的预训练时间序列基础模型,通过创新分块编码和直接多步预测实现高效时序预测
气候模型
Safetensors
C
autogluon
6.2M
13
Siglip So400m Patch14 384
Apache-2.0
SigLIP是基于WebLi数据集预训练的视觉语言模型,采用改进的sigmoid损失函数,优化了图像-文本匹配任务。
图像生成文本
Transformers
S
google
6.1M
526
Llama 3.1 8B Instruct
Llama 3.1是Meta推出的多语言大语言模型系列,包含8B、70B和405B参数规模,支持8种语言和代码生成,优化了多语言对话场景。
大型语言模型
Transformers
支持多种语言
L
meta-llama
5.7M
3,898
T5 Base
Apache-2.0
T5基础版是由Google开发的文本到文本转换Transformer模型,参数规模2.2亿,支持多语言NLP任务。
大型语言模型
支持多种语言
T
google-t5
5.4M
702
Xlm Roberta Large
MIT
XLM-RoBERTa是基于100种语言的2.5TB过滤CommonCrawl数据预训练的多语言模型,采用掩码语言建模目标进行训练。
大型语言模型
支持多种语言
X
FacebookAI
5.3M
431
Distilbert Base Uncased Finetuned Sst 2 English
Apache-2.0
基于DistilBERT-base-uncased在SST-2情感分析数据集上微调的文本分类模型,准确率91.3%
文本分类
英语
D
distilbert
5.2M
746
Dinov2 Small
Apache-2.0
基于DINOv2方法训练的小尺寸视觉Transformer模型,通过自监督学习提取图像特征
图像分类
Transformers
D
facebook
5.0M
31
Vit Base Patch16 224
Apache-2.0
基于ImageNet-21k预训练和ImageNet微调的视觉变换器模型,用于图像分类任务
图像分类
V
google
4.8M
775
Chronos Bolt Base
Apache-2.0
Chronos-Bolt是一系列预训练的时间序列预测模型,支持零样本预测,精度高且推理速度快。
气候模型
C
autogluon
4.7M
22
Whisper Large V3
Apache-2.0
Whisper是由OpenAI提出的先进自动语音识别(ASR)和语音翻译模型,在超过500万小时的标注数据上训练,具有强大的跨数据集和跨领域泛化能力。
语音识别
支持多种语言
W
openai
4.6M
4,321
Whisper Large V3 Turbo
MIT
Whisper是由OpenAI开发的最先进的自动语音识别(ASR)和语音翻译模型,经过超过500万小时标记数据的训练,在零样本设置下展现出强大的泛化能力。
语音识别
Transformers
支持多种语言
W
openai
4.0M
2,317
Bart Large Cnn
MIT
基于英语语料预训练的BART模型,专门针对CNN每日邮报数据集进行微调,适用于文本摘要任务
文本生成
英语
B
facebook
3.8M
1,364
Fashion Clip
MIT
FashionCLIP是基于CLIP开发的视觉语言模型,专门针对时尚领域进行微调,能够生成通用产品表征。
文本生成图像
Transformers
英语
F
patrickjohncyh
3.8M
222
Jina Embeddings V3
Jina Embeddings V3 是一个多语言句子嵌入模型,支持超过100种语言,专注于句子相似度和特征提取任务。
文本嵌入
Transformers
支持多种语言
J
jinaai
3.7M
911
Stable Diffusion V1 5
Openrail
稳定扩散是一种潜在的文本到图像扩散模型,能够根据任何文本输入生成逼真的图像。
图像生成
S
stable-diffusion-v1-5
3.7M
518
Bart Large Mnli
MIT
基于BART-large架构,在MultiNLI数据集上微调的零样本分类模型
大型语言模型
B
facebook
3.7M
1,364
T5 Small
Apache-2.0
T5-Small是谷歌开发的6000万参数文本转换模型,采用统一文本到文本框架处理多种NLP任务
大型语言模型
支持多种语言
T
google-t5
3.7M
450
Flan T5 Base
Apache-2.0
FLAN-T5是基于T5模型通过指令微调优化的语言模型,支持多语言任务处理,在相同参数量下性能优于原T5模型。
大型语言模型
支持多种语言
F
google
3.3M
862
Albert Base V2
Apache-2.0
ALBERT是基于Transformer架构的轻量级预训练语言模型,通过参数共享机制减少内存占用,适用于英语文本处理任务。
大型语言模型
英语
A
albert
3.1M
121
Distilbert Base Multilingual Cased
Apache-2.0
DistilBERT 是 BERT 基础多语言模型的蒸馏版本,保留了 BERT 的 97% 性能但参数更少、速度更快。
大型语言模型
Transformers
支持多种语言
D
distilbert
2.8M
187
Distilgpt2
Apache-2.0
DistilGPT2是GPT-2的轻量级蒸馏版本,拥有8200万参数,保留了GPT-2的核心文本生成能力,同时体积更小、速度更快。
大型语言模型
英语
D
distilbert
2.7M
527
Xlm Roberta Base Language Detection
MIT
基于XLM-RoBERTa的多语言检测模型,支持20种语言的文本分类
文本分类
Transformers
支持多种语言
X
papluca
2.7M
333
Table Transformer Detection
MIT
基于DETR架构的表格检测模型,专门用于从非结构化文档中提取表格
目标检测
Transformers
T
microsoft
2.6M
349
Blip Image Captioning Large
Bsd-3-clause
BLIP是一个统一的视觉-语言预训练框架,擅长图像描述生成任务,支持条件式和无条件式图像描述生成。
图像生成文本
Transformers
B
Salesforce
2.5M
1,312
Ms Marco MiniLM L6 V2
Apache-2.0
基于MS Marco段落排序任务训练的交叉编码器模型,用于信息检索中的查询-段落相关性评分
文本嵌入
英语
M
cross-encoder
2.5M
86
Mms 300m 1130 Forced Aligner
基于Hugging Face预训练模型的文本与音频强制对齐工具,支持多种语言,内存效率高
语音识别
Transformers
支持多种语言
M
MahmoudAshraf
2.5M
50
Llama 3.2 1B Instruct
Llama 3.2是Meta开发的多语言大语言模型系列,包含1B和3B规模的预训练及指令调优生成模型,针对多语言对话场景优化,支持智能检索和摘要任务。
大型语言模型
Transformers
支持多种语言
L
meta-llama
2.4M
901
Stable Diffusion Xl Base 1.0
SDXL 1.0是基于扩散的文本生成图像模型,采用专家集成的潜在扩散流程,支持高分辨率图像生成
图像生成
S
stabilityai
2.4M
6,545
Qwen2.5 0.5B Instruct
Apache-2.0
专为Gensyn强化学习群设计的0.5B参数指令微调模型,支持本地微调训练
大型语言模型
Transformers
英语
Q
Gensyn
2.4M
5
Vit Base Patch16 224 In21k
Apache-2.0
基于ImageNet-21k数据集预训练的视觉Transformer模型,用于图像分类任务。
图像分类
V
google
2.2M
323
Indonesian Roberta Base Posp Tagger
MIT
这是一个基于印尼语RoBERTa模型微调的词性标注模型,在indonlu数据集上训练,用于印尼语文本的词性标注任务。
序列标注
Transformers
其他
I
w11wo
2.2M
7
Whisper Base.en
Apache-2.0
Whisper是一个强大的自动语音识别模型,经过68万小时的数据训练,具备优异的泛化能力。
语音识别
英语
W
openai
2.2M
37