F

Florence 2 Large

由 lodestone-horizon 开发
Florence-2是微软开发的先进视觉基础模型,采用基于提示的方法处理广泛的视觉和视觉语言任务。
下载量 14
发布时间 : 6/19/2024

模型简介

Florence-2是一种统一的视觉表征模型,能够通过简单文本提示执行图像描述、目标检测、分割等多种视觉任务。它利用大规模数据集FLD-5B进行预训练,在零样本和微调场景中均表现卓越。

模型特点

统一视觉表征
通过单一模型处理多种视觉任务,无需为每个任务单独训练模型
基于提示的任务执行
使用简单文本提示(如<OD>、<CAPTION>)切换不同任务模式
大规模预训练
使用包含1.26亿张图像和54亿标注的FLD-5B数据集进行预训练
强大的零样本能力
在未针对特定任务训练的情况下仍能表现出色

模型能力

图像描述生成
目标检测
图像分割
文字识别
密集区域描述
区域提议
引用表达理解
视觉问答

使用案例

计算机视觉
自动图像标注
为图像生成描述性文本
在COCO描述测试集上CIDEr得分135.6
智能目标检测
检测图像中的物体并定位
COCO检测验证mAP 37.5(零样本)
文档处理
文字识别
从图像中提取文字内容
人机交互
视觉问答
回答关于图像内容的问题
VQAv2测试准确率81.7(微调后)
AIbase
智启未来,您的人工智能解决方案智库
简体中文