Convnext Large 384
ConvNeXT是一个纯卷积模型(ConvNet),受视觉Transformer设计的启发,声称性能优于Transformer。该模型在ImageNet-1k数据集上以384x384分辨率训练而成。
下载量 46
发布时间 : 3/2/2022
模型简介
ConvNeXT是一个纯卷积模型,用于图像分类任务,基于ImageNet-1k数据集训练,支持1000个类别的分类。
模型特点
现代化卷积设计
受视觉Transformer设计的启发,现代化了卷积网络的设计,声称性能优于Transformer。
高分辨率训练
模型在384x384分辨率下训练,适合高分辨率图像分类任务。
纯卷积架构
采用纯卷积架构,避免了Transformer的计算复杂度,同时保持了高性能。
模型能力
图像分类
高分辨率图像处理
使用案例
图像识别
动物分类
识别图像中的动物类别,如老虎、猫等。
准确分类到1000个ImageNet类别之一。
物体识别
识别日常物体,如茶壶、家具等。
准确分类到1000个ImageNet类别之一。
场景识别
识别自然或建筑场景,如宫殿、森林等。
准确分类到1000个ImageNet类别之一。
精选推荐AI模型
Qwen2.5 VL 7B Abliterated Caption It I1 GGUF
Apache-2.0
Qwen2.5-VL-7B-Abliterated-Caption-it的量化版本,支持多语言图像描述任务。
图像生成文本
Transformers 支持多种语言

Q
mradermacher
167
1
Nunchaku Flux.1 Dev Colossus
其他
Colossus Project Flux 的 Nunchaku 量化版本,旨在根据文本提示生成高质量图像。该模型在优化推理效率的同时,将性能损失降至最低。
图像生成 英语
N
nunchaku-tech
235
3
Qwen2.5 VL 7B Abliterated Caption It GGUF
Apache-2.0
这是一个基于Qwen2.5-VL-7B模型的静态量化版本,专注于图像描述生成任务,支持多种语言。
图像生成文本
Transformers 支持多种语言

Q
mradermacher
133
1
Olmocr 7B 0725 FP8
Apache-2.0
olmOCR-7B-0725-FP8是基于Qwen2.5-VL-7B-Instruct模型,使用olmOCR-mix-0225数据集微调后量化为FP8版本的文档OCR模型。
图像生成文本
Transformers 英语

O
allenai
881
3
Lucy 128k GGUF
Apache-2.0
Lucy-128k是基于Qwen3-1.7B开发的专注于代理式网络搜索和轻量级浏览的模型,在移动设备上也能高效运行。
大型语言模型
Transformers 英语

L
Mungert
263
2