swin-distilbertimbau开源模型 - 免费实现巴西葡萄牙语图像描述生成

首页

Swin Distilbertimbau

由 laicsiifes 开发

基于Swin Transformer和DistilBERTimbau的巴西葡萄牙语图像描述生成模型

图像生成文本

Transformers

其他开源协议:MIT #葡萄牙语图像描述 #视觉编码器-解码器 #Swin-Transformer

下载量 18

发布时间 : 9/1/2024

模型简介

该模型是一个视觉编码器-解码器模型，专门用于生成巴西葡萄牙语的图像描述。它结合了Swin Transformer作为视觉编码器和DistilBERTimbau作为文本解码器。

模型特点

高效的双模型架构

结合了Swin Transformer的视觉编码能力和DistilBERTimbau的文本生成能力

葡萄牙语支持

专门针对巴西葡萄牙语优化的图像描述生成

高性能

在Flickr30K葡萄牙语数据集上表现出色，多项指标领先

模型能力

图像理解

葡萄牙语文本生成

图像到文本转换

使用案例

内容生成

社交媒体图像描述

为社交媒体平台上的图像自动生成葡萄牙语描述

生成自然流畅的葡萄牙语图像描述

辅助技术

为视障人士提供图像的文字描述

帮助视障用户理解图像内容

多语言应用

葡萄牙语内容创作

为葡萄牙语市场自动生成图像相关内容

提高葡萄牙语内容创作效率

🚀 用于巴西葡萄牙语图像描述的Swin - DistilBERTimbau

Swin - DistilBERTimbau模型是在Flickr30K葡萄牙语（使用谷歌翻译API的翻译版本）上针对图像描述任务进行训练的，分辨率为224x224，最大序列长度为512个标记。

🚀 快速开始

使用以下代码开始使用该模型：

基础用法

import requests
from PIL import Image

from transformers import AutoTokenizer, AutoImageProcessor, VisionEncoderDecoderModel

# 加载经过微调的图像描述模型以及相应的分词器和图像处理器
model = VisionEncoderDecoderModel.from_pretrained("laicsiifes/swin-distilbertimbau")
tokenizer = AutoTokenizer.from_pretrained("laicsiifes/swin-distilbertimbau")
image_processor = AutoImageProcessor.from_pretrained("laicsiifes/swin-distilbertimbau")

# 预处理图像
url = "http://images.cocodataset.org/val2014/COCO_val2014_000000458153.jpg"
image = Image.open(requests.get(url, stream=True).raw)
pixel_values = image_processor(image, return_tensors="pt").pixel_values

# 生成描述
generated_ids = model.generate(pixel_values)
generated_text = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]

高级用法

import matplotlib.pyplot as plt

# 绘制带有描述的图像
plt.imshow(image)
plt.axis("off")
plt.title(generated_text)
plt.show()

image/png

✨ 主要特性

模型架构：Swin - DistilBERTimbau是一种视觉编码器 - 解码器模型，它利用了Swin Transformer的检查点作为编码器，以及DistilBERTimbau的检查点作为解码器。编码器的检查点来自于在分辨率为224x224的ImageNet - 1k上预训练的Swin Transformer版本。
训练和评估代码：用于训练和评估的代码可在以下链接获取：https://github.com/laicsiifes/ved-transformer-caption-ptbr。在这项工作中，Swin - DistilBERTimbau与它的伙伴模型Swin - GPorTuguese - 2一起进行训练。

📚 详细文档

模型信息

属性	详情
库名称	transformers
数据集	laicsiifes/flickr30k - pt - br
语言	葡萄牙语
评估指标	BLEU、ROUGE、METEOR、BERTScore
基础模型	adalbertojunior/distilbert - portuguese - cased
任务类型	图像到文本
模型名称	Swin - DistilBERTimbau

评估结果

评估指标CIDEr - D、BLEU@4、ROUGE - L、METEOR和BERTScore（使用BERTimbau）分别简称为C、B@4、RL、M和BS。

模型	数据集	评估分割	C	B@4	RL	M	BS
Swin - DistilBERTimbau	Flickr30K葡萄牙语	测试集	66.73	24.65	39.98	44.71	72.30
Swin - GPorTuguese - 2	Flickr30K葡萄牙语	测试集	64.71	23.15	39.39	44.36	71.70

📄 许可证

本项目采用MIT许可证。

📋 BibTeX引用

@inproceedings{bromonschenkel2024comparative,
  title={A Comparative Evaluation of Transformer-Based Vision Encoder-Decoder Models for Brazilian Portuguese Image Captioning},
  author={Bromonschenkel, Gabriel and Oliveira, Hil{\'a}rio and Paix{\~a}o, Thiago M},
  booktitle={2024 37th SIBGRAPI Conference on Graphics, Patterns and Images (SIBGRAPI)},
  pages={1--6},
  year={2024},
  organization={IEEE}
}