P

Pix2struct Base Table2html

由 KennethTM 开发
基于Pix2Struct的表格图像转HTML模型,可将表格图片转换为结构化HTML代码
下载量 104
发布时间 : 9/10/2024
模型介绍
内容详情
替代品

模型简介

该模型接收表格图片并输出对应的HTML代码,实现表格图像的OCR和结构化识别功能。适用于需要从图像中提取表格数据的场景。

模型特点

表格图像识别
能够准确识别表格图像中的文字和结构
HTML生成
将识别结果转换为结构化的HTML代码
多数据集训练
使用MMTab和PubTabNet两个数据集进行训练,提高泛化能力
1024分块长度
支持最大1024的分块长度,适合处理复杂表格

模型能力

表格图像识别
HTML代码生成
表格结构解析
多语言表格处理

使用案例

文档数字化
PDF表格提取
从PDF文档中提取表格并转换为HTML格式
生成可编辑的HTML表格代码
数据采集
网页表格抓取
将网页截图中的表格转换为结构化数据
获得可直接使用的表格数据