C

Cogflorence 2.2 Large

由 thwri 开发
该模型是microsoft/Florence-2-large的微调版本,在Ejafa/ye-pop数据集的4万张图像子集上进行训练,标注文本由THUDM/cogvlm2-llama3-chat-19B生成,适用于图像转文本任务。
下载量 20.64k
发布时间 : 8/23/2024
模型介绍
内容详情
替代品

模型简介

一个经过微调的视觉-语言模型,专注于生成详细图像描述和标注。

模型特点

高质量图像标注
能够生成详细且准确的图像描述,捕捉图像中的细节和情感
多阶段标注处理
标注文本由CogVLM2生成后经Gemma处理,提高了表述的清晰度
优化的视觉编码
训练期间视觉编码器参数保持冻结,确保视觉特征的稳定性

模型能力

图像描述生成
图像内容分析
视觉场景理解
详细图像标注

使用案例

内容创作
图像自动标注
为图像库中的图片自动生成详细描述
提高图像检索效率,增强可访问性
辅助技术
视觉障碍辅助
为视觉障碍用户提供详细的图像描述
帮助理解视觉内容