Kosmos-2.5开源多模态读写模型 - 免费处理图像文本识别与结构化输出

首页

Kosmos 2.5

由 microsoft 开发

Kosmos-2.5是一款面向文本密集图像机器阅读的多模态读写模型，能够处理图像中的文本识别和结构化输出。

图像生成文本

Transformers

英语开源协议:MIT #多模态读写 #文本密集图像解析 #Markdown生成

下载量 5,531

发布时间 : 5/13/2024

模型简介

Kosmos-2.5是一款多模态读写模型，专注于文本密集图像的机器阅读任务。它能够生成空间感知的文本块并输出结构化文本，适用于文档级文本识别和图像转Markdown文本生成等任务。

模型特点

多模态读写能力

结合视觉和语言处理能力，实现图像中文本的识别和结构化输出。

空间感知文本块

能够标注每个文本块在图像中的坐标位置，提供空间信息。

结构化输出

将样式与结构转化为Markdown格式，便于后续处理和使用。

任务适配性

通过监督微调配合不同提示词，可快速适配各种文本密集图像理解任务。

模型能力

文本识别

图像转Markdown

文档理解

空间文本标注

使用案例

文档处理

端到端文档级文本识别

从复杂文档图像中提取文本内容并保留结构信息

高精度的文本识别和结构保留

图像转Markdown

将包含文本的图像转换为结构化Markdown格式

保留原始样式和结构的Markdown输出

富文本图像处理

现实世界富文本图像理解

处理包含复杂文本布局的现实世界图像

通用化的文本密集图像理解能力

🚀 Kosmos-2.5

Kosmos-2.5是一款用于文本密集型图像机器阅读的多模态模型。它在大规模文本密集型图像上进行预训练，能够出色完成两种不同但相互协作的转录任务，为文本丰富图像的相关实际应用提供了通用解决方案，也为多模态大语言模型的未来发展奠定了基础。

Microsoft Document AI | GitHub

🚀 快速开始

推理

Markdown任务：使用说明请参考 md.py。
OCR任务：使用说明请参考 ocr.py。

✨ 主要特性

Kosmos-2.5是用于文本密集型图像机器阅读的多模态模型。在大规模文本密集型图像上进行预训练后，Kosmos-2.5在两项不同但相互协作的转录任务中表现出色：

生成具有空间感知的文本块：为图像中的每个文本块分配其在图像内的空间坐标。
生成结构化文本输出：将样式和结构转换为Markdown格式。

这种统一的多模态能力是通过共享的仅解码器自回归Transformer架构、特定任务的提示和灵活的文本表示来实现的。我们在端到端文档级文本识别和图像到Markdown文本生成任务上对Kosmos-2.5进行了评估。此外，通过有监督的微调，该模型可以使用不同的提示轻松适应任何文本密集型图像理解任务，使其成为处理富含文本图像的现实应用的通用工具。这项工作也为多模态大语言模型的未来扩展铺平了道路。

Kosmos-2.5: A Multimodal Literate Model

📚 详细文档

注意事项

⚠️ 重要提示

由于这是一个生成式模型，在生成过程中存在幻觉风险，并且无法保证图像中所有OCR/Markdown结果的准确性。

引用

如果您在研究中发现Kosmos-2.5很有用，请引用以下论文：

@article{lv2023kosmos,
  title={Kosmos-2.5: A multimodal literate model},
  author={Lv, Tengchao and Huang, Yupan and Chen, Jingye and Cui, Lei and Ma, Shuming and Chang, Yaoyao and Huang, Shaohan and Wang, Wenhui and Dong, Li and Luo, Weiyao and others},
  journal={arXiv preprint arXiv:2309.11419},
  year={2023}
}