C

Clip Finetuned Csu P14 336 E3l57 L

由 kevinoli 开发
该模型是基于openai/clip-vit-large-patch14-336微调的版本,主要用于图像-文本匹配任务。
下载量 31
发布时间 : 8/21/2024
模型介绍
内容详情
替代品

模型简介

基于CLIP架构的视觉-语言模型,经过微调后可用于图像分类、图像检索等跨模态任务。

模型特点

跨模态理解
能够同时处理视觉和文本信息,建立两者之间的语义关联
高分辨率处理
支持336x336像素的输入分辨率,比标准CLIP模型更高
微调优化
在特定数据集上进行了3轮微调,验证损失降至0.47

模型能力

图像-文本匹配
零样本图像分类
跨模态检索
图像特征提取

使用案例

内容检索
基于文本的图像搜索
使用自然语言描述检索相关图像
内容审核
违规内容检测
通过文本描述检测不符合规定的图像内容