vit-rugpt2-image-captioning开源模型 - 免费部署为图片生成俄语描述

首页

Vit Rugpt2 Image Captioning

由 tuman 开发

这是一个基于COCO2014数据集翻译版（英俄）训练的图片描述生成模型，能够为输入的图像生成俄语描述。

图像生成文本

Transformers

其他#俄语图像描述 #ViT-RuGPT2架构 #多模态生成

下载量 111

发布时间 : 1/18/2023

模型简介

该模型结合了视觉编码器和文本解码器，能够理解图像内容并生成相应的俄语描述。

模型特点

俄语图像描述

专门针对俄语优化的图像描述生成能力

混合架构

结合了视觉转换器(ViT)和GPT-2架构的优势

预训练模型

基于预训练模型初始化，提高了模型性能

模型能力

图像理解

俄语文本生成

图像转文本

使用案例

辅助技术

视觉障碍辅助

为视觉障碍用户提供图像内容描述

生成准确描述图像内容的俄语文本

内容管理

自动图像标注

为大量图像自动生成俄语描述标签

提高图像检索和管理效率

🚀 首个用于俄语的图像描述模型 vit-rugpt2-image-captioning

这是一个图像描述模型，在COCO2014数据集的翻译版本（从英语到俄语）上进行了训练。该模型可将图像转换为俄语描述，为俄语用户在图像理解和描述方面提供了有力支持。

🚀 快速开始

本模型基于transformers库构建，以下是使用模型进行图像描述生成的基本步骤。

📦 安装指南

由于文档未提供具体安装命令，此部分跳过。

💻 使用示例

基础用法

from transformers import VisionEncoderDecoderModel, ViTFeatureExtractor, AutoTokenizer
import torch
from PIL import Image

model = VisionEncoderDecoderModel.from_pretrained("vit-rugpt2-image-captioning")
feature_extractor = ViTFeatureExtractor.from_pretrained("vit-rugpt2-image-captioning")
tokenizer = AutoTokenizer.from_pretrained("vit-rugpt2-image-captioning")

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model.to(device)

max_length = 16
num_beams = 4
gen_kwargs = {"max_length": max_length, "num_beams": num_beams}

def predict_caption(image_paths):
  images = []
  for image_path in image_paths:
    i_image = Image.open(image_path)
    if i_image.mode != "RGB":
      i_image = i_image.convert(mode="RGB")

    images.append(i_image)

  pixel_values = feature_extractor(images=images, return_tensors="pt").pixel_values
  pixel_values = pixel_values.to(device)

  output_ids = model.generate(pixel_values, **gen_kwargs)

  preds = tokenizer.batch_decode(output_ids, skip_special_tokens=True)
  preds = [pred.strip() for pred in preds]
  return preds

predict_caption(['train2014/COCO_train2014_000000295442.jpg']) # ['Самолет на взлетно-посадочной полосе аэропорта.']

高级用法

使用transformers的pipeline可以更简洁地实现图像描述生成。

from transformers import pipeline

image_to_text = pipeline("image-to-text", model="vit-rugpt2-image-captioning")

image_to_text("train2014/COCO_train2014_000000296754.jpg") # [{'generated_text': 'Человек идет по улице с зонтом.'}]