F

Florence 2 Base Ft

由 lodestones 开发
Florence-2是微软开发的先进视觉基础模型,采用基于提示的方法处理广泛的视觉和视觉语言任务。
下载量 14
发布时间 : 6/19/2024
模型介绍
内容详情
替代品

模型简介

Florence-2是一种多任务视觉基础模型,能够通过简单文本提示执行图像描述、目标检测和分割等任务。其利用包含1.26亿张图像、54亿标注的FLD-5B数据集实现多任务学习。

模型特点

多任务统一模型
通过简单文本提示即可执行多种视觉任务,无需针对每个任务单独训练模型
大规模预训练
使用包含1.26亿张图像、54亿标注的FLD-5B数据集进行预训练
零样本能力
在未使用评估任务训练数据的情况下,仍能表现出色

模型能力

图像描述生成
目标检测
图像分割
文字识别
视觉问答
区域提议
密集区域描述
描述到短语定位

使用案例

计算机视觉
智能图像分析
自动生成图像描述和识别图像中的对象
在COCO描述测试中CIDEr得分133.0
目标检测
检测图像中的对象并定位其位置
在COCO检测验证中mAP达到34.7
视觉语言理解
视觉问答
回答关于图像内容的自然语言问题
在VQAv2测试中准确率79.7
引用表达式理解
根据自然语言描述定位图像中的特定区域
在RefCOCO验证中准确率92.6