聚合全球优质AI模型赋能下一代应用开发

调用全球AI模型，从通用到垂直，应有尽有

热门

最新

点赞量高

筛选

商用模型

开源模型

分类

框架

开源协议

语言

已选条件:

重置

23814个模型符合条件

热门

最新

点赞量高

Nsfw Image Detection

基于ViT架构的NSFW图像分类模型，通过监督学习在ImageNet-21k数据集上预训练，并在80,000张图像上微调，用于区分正常和NSFW内容。

Fairface Age Image Detection

基于Vision Transformer架构的图像分类模型，在ImageNet-21k数据集上预训练，适用于多类别图像分类任务

Clip Vit Large Patch14

CLIP是由OpenAI开发的视觉-语言模型，通过对比学习将图像和文本映射到共享的嵌入空间，支持零样本图像分类

图像生成文本

Phi-2是微软开发的一个小型但强大的语言模型，具有27亿参数，专注于高效推理和高质量文本生成。

大型语言模型支持多种语言

Chronos T5 Small

Chronos是基于语言模型架构的预训练时间序列预测模型家族，通过量化和缩放将时间序列转化为token序列进行训练，适用于概率预测任务。

基于掩码语言建模目标预训练的大型英语语言模型，采用改进的BERT训练方法

大型语言模型英语

Clip Vit Base Patch32

CLIP是由OpenAI开发的多模态模型，能够理解图像和文本之间的关系，支持零样本图像分类任务。

图像生成文本

Segmentation 3.0

这是一个基于幂集编码的说话人分割模型，能够处理10秒音频片段并识别多个说话人及其重叠语音。

说话人处理

Speaker Diarization 3.1

一个用于说话人分割的音频处理模型，能够自动检测和分割音频中的不同说话人。

说话人处理

Distilbert Base Uncased

DistilBERT是BERT基础模型的蒸馏版本，在保持相近性能的同时更轻量高效，适用于序列分类、标记分类等自然语言处理任务。

大型语言模型英语

Clipseg Rd64 Refined

CLIPSeg是一种基于文本与图像提示的图像分割模型，支持零样本和单样本图像分割任务。

Llama 3.1 8B Instruct GGUF

Meta Llama 3.1 8B Instruct 是一个多语言大语言模型，针对多语言对话用例进行了优化，在常见的行业基准测试中表现优异。

大型语言模型英语

Xlm Roberta Base

XLM-RoBERTa是基于100种语言的2.5TB过滤CommonCrawl数据预训练的多语言模型，采用掩码语言建模目标进行训练。

大型语言模型支持多种语言

基于Transformer架构的英语预训练模型，通过掩码语言建模目标在海量文本上训练，支持文本特征提取和下游任务微调

大型语言模型英语

一个用于语音活动检测、重叠语音检测和说话人分割的音频处理模型

说话人处理

Vit Face Expression

基于视觉变换器（ViT）微调的面部情绪识别模型，支持7种表情分类

Voice Activity Detection

基于pyannote.audio 2.1版本的语音活动检测模型，用于识别音频中的语音活动时间段

OPT是由Meta AI发布的开放预训练Transformer语言模型套件，参数量从1.25亿到1750亿，旨在对标GPT-3系列性能，同时促进大规模语言模型的开放研究。

大型语言模型英语

Chronos Bolt Small

Chronos-Bolt是一系列基于T5架构的预训练时间序列基础模型，通过创新分块编码和直接多步预测实现高效时序预测

基于transformers库的预训练模型，适用于多种NLP任务

大型语言模型

Siglip So400m Patch14 384

SigLIP是基于WebLi数据集预训练的视觉语言模型，采用改进的sigmoid损失函数，优化了图像-文本匹配任务。

图像生成文本

Clip Vit Large Patch14 336

基于Vision Transformer架构的大规模视觉语言预训练模型，支持图像与文本的跨模态理解

文本生成图像

Llama 3.1 8B Instruct

Llama 3.1是Meta推出的多语言大语言模型系列，包含8B、70B和405B参数规模，支持8种语言和代码生成，优化了多语言对话场景。

大型语言模型

Transformers 支持多种语言

T5基础版是由Google开发的文本到文本转换Transformer模型，参数规模2.2亿，支持多语言NLP任务。

大型语言模型支持多种语言

Xlm Roberta Large

XLM-RoBERTa是基于100种语言的2.5TB过滤CommonCrawl数据预训练的多语言模型，采用掩码语言建模目标进行训练。

大型语言模型支持多种语言

Distilbert Base Uncased Finetuned Sst 2 English

基于DistilBERT-base-uncased在SST-2情感分析数据集上微调的文本分类模型，准确率91.3%

文本分类英语

基于DINOv2方法训练的小尺寸视觉Transformer模型，通过自监督学习提取图像特征

Wav2vec2 Large Xlsr 53 Portuguese

这是一个针对葡萄牙语语音识别任务微调的XLSR-53大模型，基于Common Voice 6.1数据集训练，支持葡萄牙语语音转文本。

语音识别其他

Vit Base Patch16 224

基于ImageNet-21k预训练和ImageNet微调的视觉变换器模型，用于图像分类任务

Chronos Bolt Base

Chronos-Bolt是一系列预训练的时间序列预测模型，支持零样本预测，精度高且推理速度快。

Dolphin 2.9.1 Yi 1.5 34b

Dolphin 2.9.1 Yi 1.5 34b是一款高性能大语言模型，基于Yi-1.5-34b架构，经过精心训练，提供高质量的交互体验。

大型语言模型

Whisper Large V3

Whisper是由OpenAI提出的先进自动语音识别(ASR)和语音翻译模型，在超过500万小时的标注数据上训练，具有强大的跨数据集和跨领域泛化能力。

语音识别支持多种语言

Clip Vit Base Patch16

CLIP是由OpenAI开发的多模态模型，通过对比学习将图像和文本映射到共享的嵌入空间，实现零样本图像分类能力。

图像生成文本

Whisper Large V3 Turbo

Whisper是由OpenAI开发的最先进的自动语音识别(ASR)和语音翻译模型，经过超过500万小时标记数据的训练，在零样本设置下展现出强大的泛化能力。

Transformers 支持多种语言

Wav2vec2 Large Xlsr 53 Russian

基于facebook/wav2vec2-large-xlsr-53模型微调的俄语语音识别模型，支持16kHz采样率的语音输入

语音识别其他

基于英语语料预训练的BART模型，专门针对CNN每日邮报数据集进行微调，适用于文本摘要任务

文本生成英语

Wav2vec2 Large Xlsr 53 Chinese Zh Cn

基于facebook/wav2vec2-large-xlsr-53模型微调的中文语音识别模型，支持16kHz采样率的语音输入。

语音识别中文

FashionCLIP是基于CLIP开发的视觉语言模型，专门针对时尚领域进行微调，能够生成通用产品表征。

文本生成图像

Transformers 英语

Jina Embeddings V3

Jina Embeddings V3 是一个多语言句子嵌入模型，支持超过100种语言，专注于句子相似度和特征提取任务。

Transformers 支持多种语言

Stable Diffusion V1 5

稳定扩散是一种潜在的文本到图像扩散模型，能够根据任何文本输入生成逼真的图像。

stable-diffusion-v1-5

Bart Large Mnli

基于BART-large架构，在MultiNLI数据集上微调的零样本分类模型

大型语言模型

T5-Small是谷歌开发的6000万参数文本转换模型，采用统一文本到文本框架处理多种NLP任务

大型语言模型支持多种语言

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24