F

Florence 2 Large Ft

由 andito 开发
Florence-2是微软开发的先进视觉基础模型,采用基于提示的方法处理各类视觉与视觉-语言任务。
下载量 93
发布时间 : 6/21/2024
模型介绍
内容详情
替代品

模型简介

Florence-2通过简单文本提示即可执行图像描述、目标检测和分割等任务,依托FLD-5B大规模数据集实现多任务学习。

模型特点

统一视觉表征
通过单一模型处理多种视觉任务,减少专用模型需求
提示驱动
通过简单文本提示切换不同任务模式
大规模预训练
基于FLD-5B数据集(1.26亿图像,54亿标注)训练

模型能力

图像描述生成
目标检测
图像分割
文字识别
视觉问答
指代表达理解

使用案例

内容理解
自动图像标注
为图像生成详细描述
在COCO描述测试集上CIDEr得分143.3
视觉分析
目标检测
识别图像中的物体及其位置
COCO检测验证mAP 37.5(零样本)