F

Florence 2 Large Ft

由 zhangfaen 开发
Florence-2是微软开发的先进视觉基础模型,采用基于提示的范式处理各类视觉与视觉-语言任务。
下载量 14
发布时间 : 7/2/2024

模型简介

Florence-2是一个统一的视觉表征模型,通过简单文本提示即可执行图像描述、目标检测、分割等多种视觉任务。该模型基于包含1.26亿图像、54亿标注的FLD-5B数据集进行多任务学习。

模型特点

多任务统一处理
通过简单文本提示即可处理多种视觉任务,无需为不同任务设计专门架构
大规模预训练
基于包含1.26亿图像、54亿标注的FLD-5B数据集进行训练
零样本能力
在未见过任务上也能表现出色,减少对特定任务数据的依赖
精细视觉理解
能够生成详细图像描述并精确定位图像中的对象和区域

模型能力

图像描述生成
目标检测
图像分割
文字识别
视觉问答
区域提议
密集区域描述
短语定位

使用案例

计算机视觉
智能图像分析
自动生成图像的详细描述和内容分析
在COCO描述测试CIDEr得分135.6
目标检测
识别图像中的对象及其位置
在COCO检测验证mAP达到37.5
文档处理
文档图像理解
识别和提取文档图像中的文字和结构
辅助技术
视觉辅助
为视障人士提供图像内容描述
AIbase
智启未来,您的人工智能解决方案智库
简体中文