F

Florence 2 DocVQA

由 HuggingFaceM4 开发
这是微软Florence-2模型使用Docmatix数据集(5%数据量)以1e-6学习率微调1天后的版本
下载量 3,096
发布时间 : 6/21/2024
模型介绍
内容详情
替代品

模型简介

基于Florence-2-large-ft微调的多模态模型,擅长图像文本到文本转换任务

模型特点

多模态理解
能够处理图像和文本的联合输入,生成相关文本输出
高效微调
仅使用5%的Docmatix数据集进行微调,学习率为1e-6
基于Florence-2架构
建立在微软强大的Florence-2模型基础上

模型能力

图像文本理解
多模态内容生成
视觉问答

使用案例

文档处理
文档图像理解
从扫描文档图像中提取和理解文本内容
内容生成
图像描述生成
根据输入图像生成描述性文本