F

Florence 2 Large Ft Safetensors

由 mrhendrey 开发
Florence-2是微软开发的先进视觉基础模型,采用基于提示的架构统一处理各类视觉与视觉-语言任务
下载量 162
发布时间 : 10/8/2024

模型简介

该模型通过序列到序列架构实现多任务处理能力,支持图像描述、目标检测、分割等任务,基于FLD-5B大规模数据集训练

模型特点

统一视觉任务处理
通过简单文本提示即可完成多种视觉任务,无需特定任务模型
大规模预训练
基于包含126万张图像和54亿标注的FLD-5B数据集训练
零样本迁移能力
在未见过的评测任务上展现优异性能

模型能力

图像描述生成
目标检测
图像分割
文字识别
视觉问答
指代理解
区域描述生成

使用案例

计算机视觉
智能图像分析
自动生成图像描述和检测图像中的对象
COCO检测验证mAP达37.5
文档处理
识别图像中的文字及其位置
支持带区域的文字识别
人机交互
视觉问答系统
回答关于图像内容的自然语言问题
VQAv2准确率达81.7
AIbase
智启未来,您的人工智能解决方案智库
简体中文