C

Cogflorence 2.1 Large

由 thwri 开发
该模型是microsoft/Florence-2-large的微调版本,在Ejafa/ye-pop数据集的4万张图像子集上进行了训练,标注由THUDM/cogvlm2-llama3-chat-19B生成,专注于图像转文本任务。
下载量 2,541
发布时间 : 7/27/2024
模型介绍
内容详情
替代品

模型简介

该模型主要用于图像转文本任务,能够生成详细的图像描述。通过在大规模图像数据集上的微调,提升了模型的标注能力。

模型特点

高质量图像标注
能够生成详细且准确的图像描述,适用于各种主题的图像。
大规模数据集训练
在Ejafa/ye-pop数据集的4万张图像子集上进行了微调,提升了模型的泛化能力。
冻结视觉编码器
训练期间视觉编码器被冻结,保持了原始模型的视觉特征提取能力。

模型能力

图像描述生成
多主题图像分析
高质量文本输出

使用案例

图像标注
详细图像描述
为图像生成详细的文本描述,适用于内容管理和检索。
生成包含颜色、形状、背景等细节的描述文本。
内容管理
自动化图像标签
为大量图像自动生成标签,提高内容管理效率。
快速生成准确的图像标签,减少人工标注工作量。