F

Florence 2 Large No Flash Attn

由 multimodalart 开发
Florence-2是微软开发的先进视觉基础模型,采用基于提示的方法处理多样化视觉任务,通过统一表征实现图像描述、目标检测等多种功能。
下载量 73.91k
发布时间 : 8/29/2024
模型介绍
内容详情
替代品

模型简介

Florence-2是一种序列到序列的视觉基础模型,能够通过简单文本提示执行多种视觉和视觉-语言任务,包括图像描述、目标检测、分割等。该模型在包含1.26亿张图像的FLD-5B数据集上进行预训练,具有强大的零样本和微调能力。

模型特点

统一视觉表征
通过单一模型架构处理多种视觉任务,减少专用模型需求
提示驱动任务执行
使用简单文本提示(如<OD>)即可切换不同任务模式
大规模预训练
基于1.26亿张图像、54亿标注的FLD-5B数据集训练
零样本能力
无需微调即可在多种视觉任务上取得优异表现

模型能力

图像描述生成
目标检测
图像分割
文字识别
区域提议生成
密集区域描述
视觉问答
参照表达理解

使用案例

计算机视觉
智能图像分析
自动生成图像描述并识别关键物体
在COCO描述测试集上CIDEr得分135.6
文档处理
识别和提取图像中的文字信息
支持带区域定位的文字识别
内容理解
社交媒体分析
分析图像内容并生成标签和描述
电子商务
自动生成产品图像描述和属性识别