🚀 ko - deplot
ko - deplot是一个基于Google的Pix2Struct架构的韩语视觉问答(Visual - QA)模型。它从Deplot模型微调而来,使用了韩语图表图像 - 文本对数据进行训练。该模型能够有效处理视觉问答任务,为韩语用户在相关场景下提供准确的答案。
🚀 快速开始
你可以通过输入图像和问题来运行预测,示例代码如下:
from transformers import Pix2StructProcessor, Pix2StructForConditionalGeneration
from PIL import Image
processor = Pix2StructProcessor.from_pretrained('nuua/ko-deplot')
model = Pix2StructForConditionalGeneration.from_pretrained('nuua/ko-deplot')
IMAGE_PATH = "LOCAL_PATH_TO_IMAGE"
image = Image.open(IMAGE_PATH)
inputs = processor(images=image, text="Generate underlying data table of the figure below:", return_tensors="pt")
predictions = model.generate(**inputs, max_new_tokens=512)
print(processor.decode(predictions[0], skip_special_tokens=True))
✨ 主要特性
- 基于Google的Pix2Struct架构,具有强大的视觉理解能力。
- 从Deplot模型微调而来,利用韩语图表图像 - 文本对数据进行优化。
- 扩展了模型的tokenizer vocab,增强了对韩语的处理能力。
📦 安装指南
文档未提供具体安装步骤,暂不展示。
💻 使用示例
基础用法
from transformers import Pix2StructProcessor, Pix2StructForConditionalGeneration
from PIL import Image
processor = Pix2StructProcessor.from_pretrained('nuua/ko-deplot')
model = Pix2StructForConditionalGeneration.from_pretrained('nuua/ko-deplot')
IMAGE_PATH = "LOCAL_PATH_TO_IMAGE"
image = Image.open(IMAGE_PATH)
inputs = processor(images=image, text="Generate underlying data table of the figure below:", return_tensors="pt")
predictions = model.generate(**inputs, max_new_tokens=512)
print(processor.decode(predictions[0], skip_special_tokens=True))
高级用法
文档未提供高级用法代码示例,暂不展示。
📚 详细文档
模型信息
Tokenizer详情
模型的tokenizer vocab从50344个扩展到了65536个,使用了以下内容:
- 完整韩语字母
- 额外韩语字母
- Ko - Electra韩语标记
训练详情
训练数据
使用了来自三个库的合成图表数据:
训练过程
根据原始论文,模型首先经过了一个短暂的预热阶段,然后使用图表数据进行了50000步的训练。
技术规格
硬件
使用A100 80G GPU进行训练。
🔧 技术细节
模型基于Google的Pix2Struct架构,通过扩展tokenizer vocab和使用特定的韩语训练数据,提升了对韩语视觉问答任务的处理能力。在训练过程中,先进行预热阶段,再使用大量图表数据进行训练,以确保模型能够准确理解和回答与图表相关的问题。
📄 许可证
本项目采用Apache - 2.0许可证。
联系我们
如有任何问题和建议,请使用讨论区。如果你想直接联系我们,请发送邮件至robin@nuua.ai。