聚合全球优质AI模型赋能下一代应用开发

调用全球AI模型，从通用到垂直，应有尽有

热门

最新

点赞量高

筛选

商用模型

开源模型

分类

框架

开源协议

语言

已选条件:

重置

11898个模型符合条件

热门

最新

点赞量高

Nsfw Image Detection

基于ViT架构的NSFW图像分类模型，通过监督学习在ImageNet-21k数据集上预训练，并在80,000张图像上微调，用于区分正常和NSFW内容。

Clip Vit Large Patch14

CLIP是由OpenAI开发的视觉-语言模型，通过对比学习将图像和文本映射到共享的嵌入空间，支持零样本图像分类

图像生成文本

基于掩码语言建模目标预训练的大型英语语言模型，采用改进的BERT训练方法

大型语言模型英语

Clip Vit Base Patch32

CLIP是由OpenAI开发的多模态模型，能够理解图像和文本之间的关系，支持零样本图像分类任务。

图像生成文本

Segmentation 3.0

这是一个基于幂集编码的说话人分割模型，能够处理10秒音频片段并识别多个说话人及其重叠语音。

说话人处理

Distilbert Base Uncased

DistilBERT是BERT基础模型的蒸馏版本，在保持相近性能的同时更轻量高效，适用于序列分类、标记分类等自然语言处理任务。

大型语言模型英语

Clipseg Rd64 Refined

CLIPSeg是一种基于文本与图像提示的图像分割模型，支持零样本和单样本图像分割任务。

Llama 3.1 8B Instruct GGUF

Meta Llama 3.1 8B Instruct 是一个多语言大语言模型，针对多语言对话用例进行了优化，在常见的行业基准测试中表现优异。

大型语言模型英语

Xlm Roberta Base

XLM-RoBERTa是基于100种语言的2.5TB过滤CommonCrawl数据预训练的多语言模型，采用掩码语言建模目标进行训练。

大型语言模型支持多种语言

基于Transformer架构的英语预训练模型，通过掩码语言建模目标在海量文本上训练，支持文本特征提取和下游任务微调

大型语言模型英语

一个用于语音活动检测、重叠语音检测和说话人分割的音频处理模型

说话人处理

Vit Face Expression

基于视觉变换器（ViT）微调的面部情绪识别模型，支持7种表情分类

OPT是由Meta AI发布的开放预训练Transformer语言模型套件，参数量从1.25亿到1750亿，旨在对标GPT-3系列性能，同时促进大规模语言模型的开放研究。

大型语言模型英语

Clip Vit Large Patch14 336

基于Vision Transformer架构的大规模视觉语言预训练模型，支持图像与文本的跨模态理解

文本生成图像

Llama 3.1 8B Instruct

Llama 3.1是Meta推出的多语言大语言模型系列，包含8B、70B和405B参数规模，支持8种语言和代码生成，优化了多语言对话场景。

大型语言模型

Transformers 支持多种语言

T5基础版是由Google开发的文本到文本转换Transformer模型，参数规模2.2亿，支持多语言NLP任务。

大型语言模型支持多种语言

Xlm Roberta Large

XLM-RoBERTa是基于100种语言的2.5TB过滤CommonCrawl数据预训练的多语言模型，采用掩码语言建模目标进行训练。

大型语言模型支持多种语言

Distilbert Base Uncased Finetuned Sst 2 English

基于DistilBERT-base-uncased在SST-2情感分析数据集上微调的文本分类模型，准确率91.3%

文本分类英语

基于DINOv2方法训练的小尺寸视觉Transformer模型，通过自监督学习提取图像特征

Wav2vec2 Large Xlsr 53 Portuguese

这是一个针对葡萄牙语语音识别任务微调的XLSR-53大模型，基于Common Voice 6.1数据集训练，支持葡萄牙语语音转文本。

语音识别其他

Vit Base Patch16 224

基于ImageNet-21k预训练和ImageNet微调的视觉变换器模型，用于图像分类任务

Whisper Large V3

Whisper是由OpenAI提出的先进自动语音识别(ASR)和语音翻译模型，在超过500万小时的标注数据上训练，具有强大的跨数据集和跨领域泛化能力。

语音识别支持多种语言

Clip Vit Base Patch16

CLIP是由OpenAI开发的多模态模型，通过对比学习将图像和文本映射到共享的嵌入空间，实现零样本图像分类能力。

图像生成文本

Wav2vec2 Large Xlsr 53 Russian

基于facebook/wav2vec2-large-xlsr-53模型微调的俄语语音识别模型，支持16kHz采样率的语音输入

语音识别其他

基于英语语料预训练的BART模型，专门针对CNN每日邮报数据集进行微调，适用于文本摘要任务

文本生成英语

Wav2vec2 Large Xlsr 53 Chinese Zh Cn

基于facebook/wav2vec2-large-xlsr-53模型微调的中文语音识别模型，支持16kHz采样率的语音输入。

语音识别中文

FashionCLIP是基于CLIP开发的视觉语言模型，专门针对时尚领域进行微调，能够生成通用产品表征。

文本生成图像

Transformers 英语

Jina Embeddings V3

Jina Embeddings V3 是一个多语言句子嵌入模型，支持超过100种语言，专注于句子相似度和特征提取任务。

Transformers 支持多种语言

Bart Large Mnli

基于BART-large架构，在MultiNLI数据集上微调的零样本分类模型

大型语言模型

T5-Small是谷歌开发的6000万参数文本转换模型，采用统一文本到文本框架处理多种NLP任务

大型语言模型支持多种语言

Esm2 T36 3B UR50D

ESM-2是基于掩码语言建模目标训练的新一代蛋白质模型，适用于各类以蛋白质序列为输入的下游任务微调。

蛋白质模型

FLAN-T5是基于T5模型通过指令微调优化的语言模型，支持多语言任务处理，在相同参数量下性能优于原T5模型。

大型语言模型支持多种语言

ALBERT是基于Transformer架构的轻量级预训练语言模型，通过参数共享机制减少内存占用，适用于英语文本处理任务。

大型语言模型英语

Wav2vec2 Large Xlsr 53 Dutch

基于facebook/wav2vec2-large-xlsr-53微调的荷兰语语音识别模型，在Common Voice和CSS10数据集上训练，支持16kHz音频输入。

语音识别其他

Wav2vec2 Large Xlsr 53 Japanese

基于facebook/wav2vec2-large-xlsr-53模型微调的日语语音识别模型，支持16kHz采样率的语音输入

语音识别日语

Blip Image Captioning Base

BLIP是一个先进的视觉-语言预训练模型，擅长图像描述生成任务，支持条件式和非条件式文本生成。

图像生成文本

Distilbert Base Multilingual Cased

DistilBERT 是 BERT 基础多语言模型的蒸馏版本，保留了 BERT 的 97% 性能但参数更少、速度更快。支持 104 种语言，适用于多种自然语言处理任务。

大型语言模型

Transformers 支持多种语言

DistilGPT2是GPT-2的轻量级蒸馏版本，拥有8200万参数，保留了GPT-2的核心文本生成能力，同时体积更小、速度更快。

大型语言模型英语

Xlm Roberta Base Language Detection

基于XLM-RoBERTa的多语言检测模型，支持20种语言的文本分类

Transformers 支持多种语言

基于PyTorch实现的BLEURT模型，用于自然语言处理中的文本评估任务。

大型语言模型

Table Transformer Detection

基于DETR架构的表格检测模型，专门用于从非结构化文档中提取表格

Blip Image Captioning Large

BLIP是一个统一的视觉-语言预训练框架，擅长图像描述生成任务，支持条件式和无条件式图像描述生成。

图像生成文本

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24