F

Florence 2 Base

由 microsoft 开发
Florence-2是微软开发的先进视觉基础模型,采用基于提示的方法处理广泛的视觉和视觉语言任务。
下载量 316.74k
发布时间 : 6/15/2024
模型介绍
内容详情
替代品

模型简介

Florence-2是一种先进的视觉基础模型,采用基于提示的方法处理广泛的视觉和视觉语言任务。它能通过简单文本提示执行图像描述、目标检测和分割等任务。

模型特点

多任务统一处理
通过简单文本提示即可执行多种视觉任务,如图像描述、目标检测和分割等。
大规模预训练
利用包含126万张图像、54亿标注的FLD-5B数据集进行预训练。
零样本学习能力
在未见过的任务上表现出色,无需额外训练即可执行多种视觉任务。

模型能力

图像描述
目标检测
图像分割
文字识别
区域提议
密集区域描述
描述到短语定位

使用案例

计算机视觉
图像内容描述
为图像生成详细描述
在COCO描述任务上CIDEr得分133.0
目标检测
检测图像中的物体并定位
在COCO检测任务上mAP 34.7
视觉语言任务
图像问答
回答关于图像内容的问题
在VQAv2任务上准确率81.7
参照表达理解
理解并定位图像中描述的特定区域
在Refcoco任务上准确率93.4