F

Florence 2 Large Ft Fix

由 AdithyaSK 开发
Florence-2是微软开发的先进视觉基础模型,采用基于提示的方法处理广泛的视觉和视觉语言任务。
下载量 23
发布时间 : 6/25/2024
模型介绍
内容详情
替代品

模型简介

Florence-2是一种统一的视觉表征模型,能够通过简单文本提示执行图像描述、目标检测、分割等多种视觉任务。

模型特点

统一视觉表征
通过单一模型处理多种视觉任务,无需为每个任务单独训练模型
基于提示的任务执行
通过简单文本提示(如<OD>、<CAPTION>)切换不同任务模式
大规模预训练数据
使用FLD-5B数据集(1.26亿张图像,54亿标注)进行多任务学习
零样本与微调能力
在零样本和微调场景下均表现优异

模型能力

图像描述生成
目标检测
图像分割
文字识别
区域提议生成
密集区域描述
视觉问答

使用案例

计算机视觉
智能图像标注
为图像生成详细描述或标题
支持基础、详细和超详细三种描述级别
智能目标检测
检测图像中的物体并标注位置
输出边界框和类别标签
文档处理
文档文字识别
识别图像中的文字内容
支持带区域定位的文字识别
视觉问答
图像内容问答
回答关于图像内容的自然语言问题
在VQAv2等基准测试中表现优异