F

Florence 2 Large

由 microsoft 开发
Florence-2是微软推出的先进视觉基础模型,采用基于提示的方法处理广泛的视觉和视觉语言任务。
下载量 579.23k
发布时间 : 6/15/2024
模型介绍
内容详情
替代品

模型简介

Florence-2是一种先进的视觉基础模型,通过简单文本提示执行图像描述、目标检测和分割等任务。其利用FLD-5B数据集实现多任务学习,在零样本和微调场景中均表现优异。

模型特点

统一视觉表征
通过单一模型处理多种视觉任务,包括图像描述、目标检测、分割等
提示驱动
使用简单文本提示即可执行不同任务,无需复杂配置
大规模预训练
基于FLD-5B数据集(1.26亿张图像,54亿标注)训练
强零样本能力
在未专门训练的任务上也能表现出色

模型能力

图像描述生成
目标检测
图像分割
文字识别(OCR)
视觉问答
密集区域描述
区域提议

使用案例

计算机视觉
智能图像分析
自动识别图像中的物体、场景和文字
COCO目标检测AP达39.8
无障碍技术
为视障人士生成详细的图像描述
内容理解
社交媒体分析
自动分析社交媒体图像内容
文档处理
识别和提取图像文档中的文字和结构