F

Florence 2 Base Ft

由 microsoft 开发
Florence-2是微软开发的先进视觉基础模型,采用基于提示的方法处理广泛的视觉和视觉语言任务。
下载量 56.78k
发布时间 : 6/15/2024
模型介绍
内容详情
替代品

模型简介

Florence-2是一种统一的视觉表征模型,能够通过简单文本提示执行图像描述、目标检测和分割等多种视觉任务。

模型特点

统一视觉表征
通过单一模型处理多种视觉任务,包括图像描述、目标检测和分割等。
基于提示的任务执行
通过简单文本提示即可执行不同任务,无需单独模型。
大规模预训练
使用包含1.26亿张图像、54亿标注的FLD-5B数据集进行训练。

模型能力

图像描述生成
细粒度图像描述
目标检测
密集区域描述
文字识别(OCR)

使用案例

计算机视觉
图像描述生成
为图像生成自然语言描述
COCO描述CIDEr得分140.0
目标检测
检测图像中的物体并定位
mAP 41.4
视觉问答
回答关于图像内容的问题
准确率79.7%