P

Paligemma 3b Mix 448 Ft TableDetection

由 ucsahin 开发
基于google/paligemma-3b-mix-448微调的多模态表格检测模型,专用于识别图像中的表格区域
下载量 19
发布时间 : 5/25/2024
模型介绍
内容详情
替代品

模型简介

该模型通过结合图像和文本输入来预测图像中表格的边界框坐标,适用于文档处理和数据提取等场景

模型特点

多模态输入处理
支持同时处理图像和文本输入,实现视觉-语言联合理解
高精度表格检测
在pubtables-detection数据集上微调,专门优化表格区域识别能力
标准化输出格式
输出规范化坐标值,便于转换为多种边界框格式

模型能力

图像中的表格检测
边界框坐标预测
多模态理解

使用案例

文档处理
PDF表格提取
从扫描文档中自动定位表格区域
输出标准化坐标便于后续OCR处理
数据采集
网页截图分析
识别截图中的表格结构
为数据爬虫提供定位参考