vit-gpt2-image-chinese-captioning开源模型 - 免费支持中文图像描述生成

首页

Vit Gpt2 Image Chinese Captioning

由 yuanzhoulvpi 开发

该模型使用ViT对图像进行编码，再通过GPT-2进行解码，支持中文图像描述生成。

图像生成文本

Transformers

中文开源协议:MIT #图像中文描述生成 #ViT-GPT2联合模型 #多模态中文处理

下载量 22

发布时间 : 3/2/2023

模型简介

结合视觉编码器(ViT)和语言解码器(GPT-2)的中文图像描述生成模型，能够为输入图像生成中文文本描述。

模型特点

中文支持

专门针对中文优化的图像描述生成能力

混合架构

结合视觉Transformer(ViT)和语言模型(GPT-2)的优势

预训练模型

基于google/vit-base-patch16-224和yuanzhoulvpi/gpt2_chinese的预训练模型

模型能力

图像理解

中文文本生成

图像到文本转换

使用案例

内容生成

自动图像标注

为社交媒体或电商平台的图片自动生成中文描述

示例图片生成描述如'一只猫坐在沙发上'

辅助视觉障碍人士

将视觉内容转换为文字描述

🚀 图像中文描述生成模型

本模型结合了ViT和GPT2的优势，使用ViT对图像进行编码，GPT2进行解码，能够实现图像的中文描述生成，为图像理解和自然语言处理的结合提供了有效的解决方案。

🚀 快速开始

本模型使用google/vit-base-patch16-224作为图像编码器，yuanzhoulvpi/gpt2_chinese作为文本解码器，支持中文描述生成。

模型架构

模型细节

编码部分：使用google/vit-base-patch16-224的ViT模型对图像进行编码。
解码部分：使用yuanzhoulvpi/gpt2_chinese的GPT2模型进行文本解码。
语言支持：本模型支持中文描述生成。

📦 安装指南

文档未提供安装相关内容，暂不展示安装步骤。

💻 使用示例

基础用法

from transformers import (VisionEncoderDecoderModel, 
                          AutoTokenizer,ViTImageProcessor)
import torch
from PIL import Image

vision_encoder_decoder_model_name_or_path = "yuanzhoulvpi/vit-gpt2-image-chinese-captioning"#"vit-gpt2-image-chinese-captioning/checkpoint-3200"

processor = ViTImageProcessor.from_pretrained(vision_encoder_decoder_model_name_or_path)
tokenizer = AutoTokenizer.from_pretrained(vision_encoder_decoder_model_name_or_path)
model = VisionEncoderDecoderModel.from_pretrained(vision_encoder_decoder_model_name_or_path)
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model.to(device)

max_length = 16
num_beams = 4
gen_kwargs = {"max_length": max_length, "num_beams": num_beams}


def predict_step(image_paths):
    images = []
    for image_path in image_paths:
        i_image = Image.open(image_path)
        if i_image.mode != "RGB":
            i_image = i_image.convert(mode="RGB")

        images.append(i_image)

    pixel_values = processor(images=images, return_tensors="pt").pixel_values
    pixel_values = pixel_values.to(device)

    output_ids = model.generate(pixel_values, **gen_kwargs)

    preds = tokenizer.batch_decode(output_ids, skip_special_tokens=True)
    preds = [pred.strip() for pred in preds]
    return preds


predict_step(['bigdata/image_data/train-1000200.jpg'])