ko-deplot开源视觉问答模型 - 支持韩语英语，免费实现图表图像问答

首页

Ko Deplot

由 nuua 开发

ko-deplot是基于谷歌Pix2Struct架构的韩语视觉问答模型，通过微调Deplot模型训练而成，支持韩语和英语的图表图像问答任务。

图像生成文本

Transformers

支持多种语言开源协议:Apache-2.0 #韩语图表解析 #多模态文本生成 #合成数据训练

下载量 252

发布时间 : 12/19/2023

模型简介

该模型专门用于处理韩语和英语的视觉问答任务，能够从图表图像中提取信息并生成相应的文本回答。

模型特点

韩语支持

专门针对韩语进行优化，支持韩语图表图像的问答任务。

多语言能力

除韩语外，还支持英语的视觉问答任务。

图表理解

能够从多种类型的图表图像中提取信息并生成结构化数据。

模型能力

视觉问答

图表数据提取

多语言文本生成

使用案例

数据分析

图表数据提取

从韩语或英语的图表图像中提取基础数据表。

生成结构化数据表

教育

学习辅助

帮助学生理解韩语或英语图表中的信息。

提供图表内容的文本解释

🚀 ko - deplot

ko - deplot是一个基于Google的Pix2Struct架构的韩语视觉问答（Visual - QA）模型。它从Deplot模型微调而来，使用了韩语图表图像 - 文本对数据进行训练。该模型能够有效处理视觉问答任务，为韩语用户在相关场景下提供准确的答案。

🚀 快速开始

你可以通过输入图像和问题来运行预测，示例代码如下：

from transformers import Pix2StructProcessor, Pix2StructForConditionalGeneration
from PIL import Image

processor = Pix2StructProcessor.from_pretrained('nuua/ko-deplot')
model = Pix2StructForConditionalGeneration.from_pretrained('nuua/ko-deplot')

IMAGE_PATH = "LOCAL_PATH_TO_IMAGE"
image = Image.open(IMAGE_PATH)

inputs = processor(images=image, text="Generate underlying data table of the figure below:", return_tensors="pt")
predictions = model.generate(**inputs, max_new_tokens=512)
print(processor.decode(predictions[0], skip_special_tokens=True))

✨ 主要特性

基于Google的Pix2Struct架构，具有强大的视觉理解能力。
从Deplot模型微调而来，利用韩语图表图像 - 文本对数据进行优化。
扩展了模型的tokenizer vocab，增强了对韩语的处理能力。

📦 安装指南

文档未提供具体安装步骤，暂不展示。

💻 使用示例

基础用法

from transformers import Pix2StructProcessor, Pix2StructForConditionalGeneration
from PIL import Image

processor = Pix2StructProcessor.from_pretrained('nuua/ko-deplot')
model = Pix2StructForConditionalGeneration.from_pretrained('nuua/ko-deplot')

IMAGE_PATH = "LOCAL_PATH_TO_IMAGE"
image = Image.open(IMAGE_PATH)

inputs = processor(images=image, text="Generate underlying data table of the figure below:", return_tensors="pt")
predictions = model.generate(**inputs, max_new_tokens=512)
print(processor.decode(predictions[0], skip_special_tokens=True))