Florence-2-DocVQA开源模型 - 免费部署助力图像文本理解任务

首页

Florence 2 DocVQA

由 impactframes 开发

基于微软Florence-2模型使用Docmatix数据集（5%数据量）微调1天的版本，适用于图像文本理解任务

文本生成图像

Transformers

#文档图像理解 #小样本微调 #多模态处理

下载量 30

发布时间 : 10/4/2024

模型简介

该模型是Florence-2-large-ft的微调版本，专注于图像与文本的联合理解任务，通过特定领域数据增强性能

模型特点

领域适应微调

使用Docmatix数据集进行针对性微调，提升特定领域表现

多模态理解

能够同时处理图像和文本输入，实现跨模态理解

模型能力

图像文本理解

跨模态推理

视觉问答

使用案例

文档理解

文档图像解析

从扫描文档图像中提取结构化信息

教育技术

教材内容分析

分析教材中的图文内容并生成摘要

🚀 微软Florence - 2模型

这是微软的Florence - 2模型，使用Docmatix（占数据的5%）训练了1天，学习率为1e - 6。该模型能实现图像文本到文本的转换。此微调代码可在这里找到。还有一篇博客解释了如何微调Florence：如何微调Florence2

🚀 快速开始

使用以下代码开始使用该模型：

# 此处应补充实际使用代码

📚 详细文档

模型详情

模型描述

这是一个🤗 Transformers模型的模型卡片，已被推送到Hugging Face Hub，它是自动生成的。

开发者： Andi Marafioti
资助方： Hugging Face 🤗
语言（NLP）： 英语
许可证： MIT
微调基础模型： Florence - 2 - large - ft

模型来源

仓库： [待补充更多信息]
演示： [待补充更多信息]

模型用途

直接使用

[待补充更多信息]

下游使用

[待补充更多信息]

超出适用范围的使用

[待补充更多信息]

偏差、风险和局限性

[待补充更多信息]

建议

直接用户和下游用户都应该了解该模型的风险、偏差和局限性。如需进一步建议，还需更多信息。

训练详情

训练数据

[待补充更多信息]

训练过程

预处理

[待补充更多信息]

训练超参数

训练机制： [待补充更多信息]

速度、大小、时间

[待补充更多信息]

评估

测试数据、因素和指标

测试数据

[待补充更多信息]

因素

[待补充更多信息]

指标

[待补充更多信息]

结果

[待补充更多信息]

模型审查

[待补充更多信息]

环境影响

可以使用 Lacoste等人（2019）提出的机器学习影响计算器来估算碳排放。

硬件类型： [待补充更多信息]
使用时长： [待补充更多信息]
云服务提供商： [待补充更多信息]
计算区域： [待补充更多信息]
碳排放： [待补充更多信息]

技术规格

模型架构和目标

[待补充更多信息]

计算基础设施

硬件

[待补充更多信息]

软件

[待补充更多信息]

引用

BibTeX

[待补充更多信息]

APA

[待补充更多信息]

术语表

[待补充更多信息]

模型卡片作者

[待补充更多信息]

模型卡片联系方式

[待补充更多信息]

📄 许可证

该模型使用MIT许可证。

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

uer

2,694

智启未来，您的人工智能解决方案智库

简体中文