F

Florence 2 Large

由 Binaryy 开发
Florence-2是微软开发的先进视觉基础模型,采用基于提示的方法处理广泛的视觉和视觉语言任务。
下载量 24
发布时间 : 6/27/2024
模型介绍
内容详情
替代品

模型简介

Florence-2是一种统一的视觉表征模型,能够通过简单文本提示执行图像描述、目标检测、分割等多种视觉任务。它利用包含1.26亿张图像和54亿标注的FLD-5B数据集进行训练,在零样本和微调场景中均表现优异。

模型特点

统一视觉表征
通过单一模型处理多种视觉任务,减少专用模型需求
基于提示的任务执行
通过简单文本提示即可切换不同任务模式
大规模预训练
使用包含1.26亿图像和54亿标注的FLD-5B数据集训练
零样本能力
在未专门训练的任务上也能表现出色

模型能力

图像描述生成
目标检测
图像分割
文字识别
区域提议
密集区域描述
视觉问答
引用表达理解

使用案例

计算机视觉
智能图像分析
自动生成图像描述和检测图像中的对象
在COCO描述测试中获得135.6 CIDEr分数
文档处理
识别和提取图像中的文字信息
辅助技术
视觉辅助
为视障人士描述图像内容