N

Nano Image Captioning

由 cnmoro 开发
这是一个基于bert-tiny和vit-tiny的轻量级图像字幕生成模型,仅重40MB,在CPU上运行速度极快。
下载量 184
发布时间 : 1/28/2025
模型介绍
内容详情
替代品

模型简介

该模型结合了视觉编码器(ViT-tiny)和文本解码器(BERT-tiny),能够为输入的图像生成简洁的描述性字幕。

模型特点

轻量高效
模型仅40MB大小,在CPU上也能实现快速推理(约0.075秒/张)
双微型架构
采用vit-tiny-patch16-224作为视觉编码器,bert_uncased_L-2_H-128_A-2作为文本解码器
优化推理设置
提供温度采样、top-p/top-k过滤和束搜索等多种生成策略

模型能力

图像理解
自然语言生成
实时字幕生成

使用案例

无障碍技术
图像描述生成
为视障用户自动生成图像的文字描述
生成简洁准确的图像描述(如:'一群人站在城市中心')
内容管理
自动图片标注
为图库或社交媒体图片自动生成标签和描述
快速生成可搜索的元数据