F

Florence 2 Large

由 lodestone-horizon 开发
Florence-2是微软开发的先进视觉基础模型,采用基于提示的方法处理广泛的视觉和视觉语言任务。
下载量 14
发布时间 : 6/19/2024
模型介绍
内容详情
替代品

模型简介

Florence-2是一种统一的视觉表征模型,能够通过简单文本提示执行图像描述、目标检测、分割等多种视觉任务。它利用大规模数据集FLD-5B进行预训练,在零样本和微调场景中均表现卓越。

模型特点

统一视觉表征
通过单一模型处理多种视觉任务,无需为每个任务单独训练模型
基于提示的任务执行
使用简单文本提示(如<OD>、<CAPTION>)切换不同任务模式
大规模预训练
使用包含1.26亿张图像和54亿标注的FLD-5B数据集进行预训练
强大的零样本能力
在未针对特定任务训练的情况下仍能表现出色

模型能力

图像描述生成
目标检测
图像分割
文字识别
密集区域描述
区域提议
引用表达理解
视觉问答

使用案例

计算机视觉
自动图像标注
为图像生成描述性文本
在COCO描述测试集上CIDEr得分135.6
智能目标检测
检测图像中的物体并定位
COCO检测验证mAP 37.5(零样本)
文档处理
文字识别
从图像中提取文字内容
人机交互
视觉问答
回答关于图像内容的问题
VQAv2测试准确率81.7(微调后)