C

Cogflorence 2 Large Freeze

由 thwri 开发
这是microsoft/Florence-2-large模型的微调版本,在Ejafa/ye-pop数据集的38,000张图像子集上训练,使用CogVLM2生成标注,专注于图像转文本任务。
下载量 419
发布时间 : 7/4/2024
模型介绍
内容详情
替代品

模型简介

该模型是一个视觉语言模型,能够根据输入的图像生成详细的文本描述。它在Florence-2-large基础上微调,增强了图像标注能力。

模型特点

高质量图像标注
能够生成详细、准确的图像描述,捕捉图像中的关键元素和细节
大规模数据微调
在38,000张多样化图像上训练,提升了模型的泛化能力
视觉编码器冻结
训练时保持视觉编码器参数不变,专注于文本生成能力的优化

模型能力

图像理解
详细图像描述生成
多元素场景分析

使用案例

内容生成
图像自动标注
为图像库中的图片自动生成详细描述
提高图像检索效率和可访问性
辅助技术
视觉辅助
为视障人士提供图像内容的详细语音描述
增强数字内容的可访问性