W
Webssl Dino2b Full2b 224
由 facebook 开发
20亿参数视觉Transformer模型,通过纯视觉自监督学习在20亿网络图像上训练而成,在多模态任务中表现优异
下载量 50
发布时间 : 4/25/2025
模型简介
这是一个基于DINOv2自监督学习框架训练的20亿参数视觉Transformer模型,无需语言监督,在各类视觉任务中达到或超越语言监督模型的性能
模型特点
纯视觉自监督学习
无需语言监督,仅通过视觉数据进行训练
大规模训练
在20亿网络图像样本上进行训练
高性能表现
在传统视觉基准测试和多模态任务中表现优异
双注意力实现
支持'eager'和'sdpa'两种注意力实现方式
模型能力
图像特征提取
视觉表征学习
多模态任务处理
视觉问答
OCR识别
图表理解
使用案例
计算机视觉
图像分类
利用模型提取的图像特征进行分类任务
达到或超越语言监督模型的性能
目标检测
通过模型的分块标记特征进行目标定位
多模态应用
视觉问答
结合语言模型实现图像内容问答
表现优异
图表理解
解析和理解图表中的视觉信息
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers

支持多种语言
L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers

英语
C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统
中文
R
uer
2,694
98
AIbase是一个专注于MCP服务的平台,为AI开发者提供高质量的模型上下文协议服务,助力AI应用开发。
简体中文