vit-gpt2-image-captioning开源模型 - 免费部署为图像生成自然语言描述

首页

Vit Gpt2 Image Captioning

由 baseplate 开发

这是一个基于Vision Encoder-Decoder架构的图像描述生成模型，能够为输入图像生成自然语言描述。

图像生成文本

Transformers

开源协议:Apache-2.0 #图像转文本 #视觉-语言模型 #自动图像描述

下载量 55

发布时间 : 4/5/2023

模型简介

该模型使用ViT作为图像编码器，GPT-2作为文本解码器，能够将视觉信息转换为自然语言描述。主要用于自动为图像生成标题或描述。

模型特点

视觉-语言联合模型

结合了视觉Transformer和语言模型的能力，实现跨模态理解与生成

端到端训练

整个模型可以端到端训练，优化图像到文本的转换过程

基于Transformer架构

利用Transformer的自注意力机制，有效捕捉图像和文本之间的关系

模型能力

图像理解

自然语言生成

跨模态转换

使用案例

内容生成

社交媒体图像自动标注

为社交媒体平台上的图像自动生成描述性标题

提高内容可访问性和搜索能力

辅助技术

为视障人士提供图像内容的语音描述

增强数字内容的可访问性

数字资产管理

图像库自动标注

为大型图像库自动生成元数据描述

提高图像检索效率和管理能力

🚀 nlpconnect/vit - gpt2 - 图像描述生成

这是一个图像描述生成模型，由@ydshieh在[flax](https://github.com/huggingface/transformers/tree/main/examples/flax/image - captioning)中训练得到，此为[该模型](https://huggingface.co/ydshieh/vit - gpt2 - coco - en - ckpts)的PyTorch版本。该模型可将图像转换为文本描述，为图像赋予语义信息，在图像理解和信息提取等方面具有重要价值。

🚀 快速开始

模型信息

属性	详情
标签	图像转文本、图像描述生成
许可证	Apache - 2.0
重复来源	nlpconnect/vit - gpt2 - 图像描述生成

示例展示

稀树草原
[足球比赛](https://huggingface.co/datasets/mishig/sample_images/resolve/main/football - match.jpg)
机场

[使用Transformer进行图像描述生成的图解](https://ankur3107.github.io/blogs/the - illustrated - image - captioning - using - transformers/)

![图像描述](https://ankur3107.github.io/assets/images/vision - encoder - decoder.png)

💻 使用示例

基础用法

from transformers import VisionEncoderDecoderModel, ViTImageProcessor, AutoTokenizer
import torch
from PIL import Image

model = VisionEncoderDecoderModel.from_pretrained("nlpconnect/vit-gpt2-image-captioning")
feature_extractor = ViTImageProcessor.from_pretrained("nlpconnect/vit-gpt2-image-captioning")
tokenizer = AutoTokenizer.from_pretrained("nlpconnect/vit-gpt2-image-captioning")

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model.to(device)

max_length = 16
num_beams = 4
gen_kwargs = {"max_length": max_length, "num_beams": num_beams}
def predict_step(image_paths):
  images = []
  for image_path in image_paths:
    i_image = Image.open(image_path)
    if i_image.mode != "RGB":
      i_image = i_image.convert(mode="RGB")

    images.append(i_image)

  pixel_values = feature_extractor(images=images, return_tensors="pt").pixel_values
  pixel_values = pixel_values.to(device)

  output_ids = model.generate(pixel_values, **gen_kwargs)

  preds = tokenizer.batch_decode(output_ids, skip_special_tokens=True)
  preds = [pred.strip() for pred in preds]
  return preds


predict_step(['doctor.e16ba4e4.jpg']) # ['a woman in a hospital bed with a woman in a hospital bed']

高级用法

from transformers import pipeline

image_to_text = pipeline("image-to-text", model="nlpconnect/vit-gpt2-image-captioning")

image_to_text("https://ankur3107.github.io/assets/images/image-captioning-example.png")

# [{'generated_text': 'a soccer game with a player jumping to catch the ball '}]