N

Nougat Base Deploy

由 HongxuanLi 开发
Nougat是基于Donut架构的视觉-语言模型,专为将科学类PDF转录为Markdown格式而设计。
下载量 20
发布时间 : 4/22/2024
模型介绍
内容详情
替代品

模型简介

该模型采用Swin Transformer作为视觉编码器,mBART作为文本解码器,通过自回归方式实现PDF到Markdown的转换。

模型特点

学术文档优化
专门针对科学类PDF文档设计,能有效处理复杂排版和公式
端到端转换
直接从PDF图像像素预测Markdown内容,无需中间OCR步骤
混合架构
结合视觉Transformer和文本解码器的优势,实现高质量转换

模型能力

PDF文档转换
Markdown生成
学术文档理解
公式识别

使用案例

学术文档处理
论文格式转换
将PDF格式的学术论文转换为结构化Markdown
保留原始文档的公式、表格和参考文献格式
技术文档数字化
将技术手册和规范文档转换为可编辑格式
便于内容管理和版本控制