TF-ID-large开源模型 - 免费部署，高效提取学术论文表格和图表

首页

TF ID Large

由 yifeihu 开发

TF-ID是专门用于提取学术论文中表格和图表的视觉目标检测模型，基于Florence-2微调而成

目标检测

Transformers

开源协议:MIT #学术论文解析 #图表检测 #高精度OCR

下载量 9,893

发布时间 : 7/10/2024

模型简介

该模型能够识别学术论文中的表格和图表，并返回其边界框位置。基础版会同时识别表格/图表及其标题文本

模型特点

高精度表格/图表检测

在测试集上达到97.29%的成功率，能准确识别学术论文中的表格和图表

标题文本联合检测

基础版能同时检测表格/图表及其对应的标题文本

多版本选择

提供基础版/大型版以及带标题/不带标题的多种模型变体

模型能力

学术论文图像分析

表格检测

图表检测

文本区域检测

目标检测

使用案例

学术研究

论文内容分析

自动提取论文中的表格和图表信息，便于文献综述和研究分析

可准确识别97%以上的表格和图表

学术知识图谱构建

作为预处理工具，帮助构建包含论文可视化元素的学术知识库

出版行业

学术期刊排版

自动检测论文中的可视化元素，辅助期刊排版工作

🚀 TF-ID：学术论文的表格/图标识符

TF-ID（Table/Figure IDentifier）是一系列目标检测模型，由胡逸飞创建，用于提取学术论文中的表格和图。该模型具有强大的识别能力，能精准定位论文中的表格和图，为学术研究和文献处理提供了高效的解决方案。

🚀 快速开始

使用以下代码开始使用该模型：

import requests
from PIL import Image
from transformers import AutoProcessor, AutoModelForCausalLM

model = AutoModelForCausalLM.from_pretrained("yifeihu/TF-ID-base", trust_remote_code=True)
processor = AutoProcessor.from_pretrained("yifeihu/TF-ID-base", trust_remote_code=True)

prompt = "<OD>"
url = "https://huggingface.co/yifeihu/TF-ID-base/resolve/main/arxiv_2305_10853_5.png?download=true"
image = Image.open(requests.get(url, stream=True).raw)

inputs = processor(text=prompt, images=image, return_tensors="pt")
generated_ids = model.generate(
    input_ids=inputs["input_ids"],
    pixel_values=inputs["pixel_values"],
    max_new_tokens=1024,
    do_sample=False,
    num_beams=3
)

generated_text = processor.batch_decode(generated_ids, skip_special_tokens=False)[0]
parsed_answer = processor.post_process_generation(generated_text, task="<OD>", image_size=(image.width, image.height))

print(parsed_answer)

要可视化结果，请参阅本教程笔记本以获取更多详细信息。

✨ 主要特性

TF-ID（Table/Figure IDentifier）是一系列经过微调的目标检测模型，用于提取学术论文中的表格和图。
有四个版本可供选择，能满足不同需求：
- TF-ID-base[HF]：0.23B，可提取表格/图及其标题文本。
- TF-ID-large[HF]（推荐）：0.77B，可提取表格/图及其标题文本。
- TF-ID-base-no-caption[HF]：0.23B，可提取表格/图，不包含标题文本。
- TF-ID-large-no-caption[HF]（推荐）：0.77B，可提取表格/图，不包含标题文本。
所有TF-ID模型均从microsoft/Florence - 2的检查点进行微调。
模型使用来自Hugging Face Daily Papers的论文进行微调，所有边界框均经过人工手动标注和检查。
以单页学术论文的图像作为输入，返回给定页面中所有表格和图的边界框。
TF-ID-base和TF-ID-large会在表格/图及其标题文本周围绘制边界框。
TF-ID-base-no-caption和TF-ID-large-no-caption会在表格/图周围绘制边界框，但不包含标题文本。

📚 详细文档

模型概述

TF-ID（Table/Figure IDentifier）是由胡逸飞创建的一系列目标检测模型，用于提取学术论文中的表格和图。它有四个版本，具体信息如下：

模型	模型大小	模型描述
TF-ID-base[HF]	0.23B	提取表格/图及其标题文本
TF-ID-large[HF]（推荐）	0.77B	提取表格/图及其标题文本
TF-ID-base-no-caption[HF]	0.23B	提取表格/图，不包含标题文本
TF-ID-large-no-caption[HF]（推荐）	0.77B	提取表格/图，不包含标题文本

所有TF-ID模型均从microsoft/Florence - 2的检查点进行微调。

训练相关

数据集：yifeihu/TF-ID-arxiv-papers
代码：github.com/ai8hyf/TF-ID

基准测试

在训练数据集之外的论文页面上对模型进行了测试，这些论文是Hugging Face每日论文的一个子集。正确输出定义为模型为给定页面中的每个表格/图绘制正确的边界框。

含标题文本模型

模型	总图像数	正确输出数	成功率
TF-ID-base[HF]	258	251	97.29%
TF-ID-large[HF]	258	253	98.06%

不含标题文本模型

模型	总图像数	正确输出数	成功率
TF-ID-base-no-caption[HF]	261	253	96.93%
TF-ID-large-no-caption[HF]	261	254	97.32%

根据不同的用例，一些“不正确”的输出可能仍然完全可用。例如，模型为一个包含两个子组件的图绘制了两个边界框。

目标检测结果格式

{'<OD>': {'bboxes': [[x1, y1, x2, y2], ...], 'labels': ['label1', 'label2', ...]} }

BibTex和引用信息

@misc{TF-ID,
  author = {Yifei Hu},
  title = {TF-ID: Table/Figure IDentifier for academic papers},
  year = {2024},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {\url{https://github.com/ai8hyf/TF-ID}},
}