Coco Instance Eomt Large 1280
MIT
该论文提出了一种将Vision Transformer (ViT) 重新解释为图像分割模型的方法,展示了ViT在图像分割任务中的潜力。
图像分割
PyTorch
C
tue-mps
105
0
Ade20k Panoptic Eomt Giant 1280
MIT
该论文提出了一种将Vision Transformer (ViT) 重新解释为图像分割模型的方法,揭示了ViT在图像分割任务中的潜力。
图像分割
A
tue-mps
96
0
Ade20k Panoptic Eomt Large 1280
MIT
该论文提出了一种基于Vision Transformer (ViT) 的图像分割模型,揭示了ViT在图像分割任务中的潜力。
图像分割
A
tue-mps
129
0
Ade20k Panoptic Eomt Large 640
MIT
该论文提出了一种将Vision Transformer (ViT) 重新解释为图像分割模型的方法,展示了ViT在图像分割任务中的潜力。
图像分割
A
tue-mps
105
0
Ade20k Panoptic Eomt Giant 640
MIT
该模型揭示了Vision Transformer (ViT) 在图像分割任务中的潜力,通过特定架构调整使其适用于分割任务。
图像分割
A
tue-mps
116
0
Coco Panoptic Eomt Large 1280
MIT
该论文提出了一种新的视角,将Vision Transformer (ViT) 视为图像分割模型,并探讨了其在图像分割任务中的潜力。
图像分割
PyTorch
C
tue-mps
119
0
Ade20k Semantic Eomt Large 512
MIT
该模型基于论文《你的ViT实际上是图像分割模型》开发,是一种用于图像分割任务的视觉Transformer模型。
图像分割
PyTorch
A
tue-mps
108
0
Coco Panoptic Eomt Large 640
MIT
该模型揭示了Vision Transformer (ViT) 在图像分割任务中的潜力,通过特定架构调整使其适用于分割任务。
图像分割
C
tue-mps
217
0
Coco Instance Eomt Large 640
MIT
该论文提出了一种将Vision Transformer (ViT) 重新解释为图像分割模型的方法,展示了ViT在图像分割任务中的潜力。
图像分割
C
tue-mps
99
0
Coco Panoptic Eomt Giant 1280
MIT
该模型通过重新思考Vision Transformer (ViT) 的架构,展示了其在图像分割任务中的潜力。
图像分割
PyTorch
C
tue-mps
90
0
Detr Finetuned Chess
Apache-2.0
这是一个基于DETR架构的目标检测模型,专门针对国际象棋棋子识别任务进行了微调。
目标检测
Transformers

D
aesat
29
1
Migician
Apache-2.0
魔术师是首个具备自由形式多图像定位能力的多模态大语言模型,在复杂多图像场景中实现精确定位,性能超越70B规模模型。
文本生成图像
Transformers

英语
M
Michael4933
83
1
Yolov10x
YOLOv10x 是 YOLO 系列的最新版本,专注于实时端到端目标检测,提供更高的检测精度和更快的推理速度。
目标检测
Y
jameslahm
1,145
41
Yolov10l
YOLOv10 是一个实时端到端目标检测模型,由清华大学团队开发,基于 YOLO 系列的最新改进版本。
目标检测
Y
jameslahm
186
3
Yolov10b
YOLOv10 是一个实时端到端目标检测模型,由清华大学团队开发,基于 YOLO 系列的最新改进版本。
目标检测
Safetensors
Y
jameslahm
97
2
Yolov10n
YOLOv10是清华大学提出的实时端到端目标检测模型,具有高效和准确的特点。
目标检测
Y
jameslahm
3,326
17
Yolov10s
YOLOv10是一种实时目标检测模型,通过消除非极大值抑制(NMS)等后处理步骤,实现了高效且无额外开销的目标检测。
目标检测
Y
kadirnar
15
0
Creek
Apache-2.0
从零构建的大语言模型,包含分词器训练、模型初始化、预训练与指令微调全流程开源实现
大型语言模型
Transformers

C
maheer
21
1
Detr Resnet 50 Sku110k
Apache-2.0
该DETR模型在SKU110K目标检测数据集上进行了端到端训练,查询数设置为400,适用于商品货架检测等场景。
目标检测
Transformers

D
isalia99
4,066
2
Control V11p Sd15 Inpaint
Openrail
ControlNet v1.1 是一个基于扩散模型的神经网络结构,用于通过额外条件控制图像生成,特别适用于图像修复任务。
图像生成
其他
C
krnl
35
0
Mamba 3B Slimpj
Apache-2.0
基于Mamba架构的3B参数规模的语言模型,支持英文文本生成任务。
大型语言模型
Transformers

英语
M
Q-bert
56
3
Detr Resnet 50 Finetuned Cppe5
Apache-2.0
基于facebook/detr-resnet-50在图像文件夹数据集上微调的DETR目标检测模型
目标检测
Transformers

D
tree12344
20
0
Segformer B0 Finetuned V0
其他
基于nvidia/mit-b0在tontokoton/artery-ultrasound-siit数据集上微调的图像分割模型
图像分割
Transformers

S
Pavarissy
15
0
Timesformer Bert Video Captioning
基于Timesformer和BERT架构的视频字幕生成模型,能够为视频内容生成描述性字幕。
视频生成文本
Transformers

T
AlexZigma
83
3
Encodec 48khz
MIT
EnCodec是由Meta AI开发的实时高保真神经音频编解码器,支持多种带宽配置和流式处理。
音频生成
Transformers

E
facebook
23.25k
32
Encodec 24khz
EnCodec是由Meta AI开发的高保真实时神经音频编解码器,采用端到端训练方式,支持多种带宽设置。
音频生成
Transformers

E
facebook
534.08k
46
Donut Invoices
基于Donut架构微调的发票信息提取模型,免OCR实现文档理解
图像生成文本
Transformers

D
scharnot
70
2
Detr Resnet 50 Finetuned OCR
Apache-2.0
基于facebook/detr-resnet-50微调的OCR模型,用于目标检测任务
文字识别
Transformers

D
ismadoukkali
15
1
Deformable Detr Box Supervised
Apache-2.0
Deformable DETR是基于Transformer架构的目标检测模型,在LVIS数据集上训练,支持1203个类别的物体检测。
目标检测
Transformers

D
facebook
193
0
Deformable Detr Detic
Apache-2.0
使用可变形检测变换器架构,在包含1203个类别的LVIS数据集上训练的目标检测模型
目标检测
Transformers

D
facebook
792
8
Imclasif Genres V001
这是一个基于HuggingPics生成的图像分类模型,主要用于对特定类型(genres)的图像进行分类。
图像分类
Transformers

I
sanali209
21
0
Gender Classification
一个基于HuggingPics生成的图像分类模型,用于识别图像中的性别(男性或女性)。
图像分类
Transformers

G
Enverrr
13
0
Yolos Small Balloon
YOLOS是一种使用视觉Transformer(ViT)架构的目标检测模型,通过DETR损失训练,在COCO和Matterport气球数据集上微调。
目标检测
Transformers

Y
zoheb
101
1
Re2g Qry Encoder Fever
Apache-2.0
Re2G是一个结合神经初始检索和重排序的生成模型,用于知识密集型任务。
文本嵌入
Transformers

R
ibm-research
17
0
Re2g Qry Encoder Nq
Apache-2.0
Re2G是一个结合神经检索、重排序和生成的端到端系统,用于知识密集型任务。
问答系统
Transformers

R
ibm-research
14
0
Cifar 10 Vgg Pretrained
基于PyTorch实现的图像分类模型,能够识别多种常见物体类别
图像分类
Transformers

C
amehta633
22
0
Kss Tts Train Jets Raw Phn Null G2pk Train.total Count.ave
这是一个基于ESPnet2框架训练的韩语文本转语音(TTS)模型,使用KSS数据集训练,采用JETS架构。
语音合成
韩语
K
imdanboy
60
0
Wav2vec2 Base Timit Demo Colab0
Apache-2.0
该模型是基于facebook/wav2vec2-base微调的语音识别模型,在TIMIT数据集上取得了0.5635的词错误率。
语音识别
Transformers

W
sherry7144
26
0
Wav2vec2 Base Timit Demo Colab
Apache-2.0
基于facebook/wav2vec2-base模型在TIMIT数据集上微调的语音识别模型,用于演示目的
语音识别
Transformers

W
moaiz237
24
0
Gunnarthor Talromur A Fastspeech2
基于ESPnet框架和talromur数据集训练的FastSpeech2文本转语音模型,支持冰岛语语音合成。
语音合成
英语
G
espnet
50
0
- 1
- 2
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers

支持多种语言
L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers

英语
C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统
中文
R
uer
2,694
98
AIbase是一个专注于MCP服务的平台,为AI开发者提供高质量的模型上下文协议服务,助力AI应用开发。
简体中文