F

Florence 2 Large Ft

由 microsoft 开发
Florence-2是微软开发的先进视觉基础模型,采用基于提示的方法处理广泛的视觉与视觉-语言任务。
下载量 269.44k
发布时间 : 6/15/2024
模型介绍
内容详情
替代品

模型简介

Florence-2是一种先进的视觉基础模型,能通过简单文本提示执行图像描述、目标检测和分割等任务。依托包含1.26亿张图像、54亿标注的FLD-5B数据集,Florence-2实现了多任务学习的突破。

模型特点

多任务学习能力
通过单一模型处理多种视觉任务,包括图像描述、目标检测和分割等。
基于提示的任务执行
通过简单文本提示即可执行不同视觉任务,无需特定任务模型。
大规模预训练
基于包含1.26亿张图像和54亿标注的FLD-5B数据集进行预训练。

模型能力

图像描述生成
目标检测
图像分割
文字识别
视觉问答
密集区域描述
区域提议

使用案例

计算机视觉
图像自动标注
为图像生成详细描述,可用于内容管理和检索系统。
在COCO描述测试集上CIDEr得分143.3
智能监控
实时检测和识别监控视频中的对象和行为。
在COCO检测验证集上mAP达到37.5
内容理解
社交媒体内容分析
自动分析社交媒体图片内容,提取关键信息。
在Flickr30k测试集上R@1达到84.4