Clip Finetuned Csu P14 336 E3l57 L

C

Clip Finetuned Csu P14 336 E3l57 L

由 kevinoli 开发

该模型是基于openai/clip-vit-large-patch14-336微调的版本，主要用于图像-文本匹配任务。

文本生成图像

#CLIP微调模型 #视觉-语言对齐 #多模态理解

下载量 31

发布时间 : 8/21/2024

模型简介

基于CLIP架构的视觉-语言模型，经过微调后可用于图像分类、图像检索等跨模态任务。

模型特点

跨模态理解

能够同时处理视觉和文本信息，建立两者之间的语义关联

高分辨率处理

支持336x336像素的输入分辨率，比标准CLIP模型更高

微调优化

在特定数据集上进行了3轮微调，验证损失降至0.47

模型能力

图像-文本匹配

零样本图像分类

跨模态检索

图像特征提取

使用案例

内容检索

基于文本的图像搜索

使用自然语言描述检索相关图像

内容审核

违规内容检测

通过文本描述检测不符合规定的图像内容

🚀 clip-finetuned-csu-p14-336-e3l57-l

该模型是 openai/clip-vit-large-patch14-336 在未知数据集上的微调版本，在评估集上损失为 0.4700。

🚀 快速开始

本模型是 openai/clip-vit-large-patch14-336 在未知数据集上的微调版本。它在评估集上取得了以下结果：

损失：0.4700

📚 详细文档

模型描述

更多信息待补充。

预期用途和限制

更多信息待补充。

训练和评估数据

更多信息待补充。

训练过程

训练超参数

训练期间使用了以下超参数：

学习率：5e-07
训练批次大小：128
评估批次大小：8
随机种子：42
优化器：Adam（β1=0.9，β2=0.999，ε=1e-08）
学习率调度器类型：线性
训练轮数：3.0

训练结果

训练损失	轮数	步数	验证损失
0.3812	0.0533	500	1.1163
0.2683	0.1067	1000	0.9684
0.2119	0.1600	1500	0.9100
0.1889	0.2133	2000	0.8620
0.2071	0.2666	2500	0.7918
0.1588	0.3200	3000	0.7657
0.1718	0.3733	3500	0.7610
0.1113	0.4266	4000	0.7458
0.1313	0.4799	4500	0.7168
0.1649	0.5333	5000	0.7019
0.1245	0.5866	5500	0.6812
0.1286	0.6399	6000	0.6502
0.1076	0.6933	6500	0.6154
0.1477	0.7466	7000	0.6118
0.1315	0.7999	7500	0.6016
0.1413	0.8532	8000	0.5849
0.124	0.9066	8500	0.5766
0.1215	0.9599	9000	0.5559
0.131	1.0132	9500	0.5633
0.0348	1.0666	10000	0.5531
0.0687	1.1199	10500	0.5495
0.0749	1.1732	11000	0.5474
0.1083	1.2265	11500	0.5416
0.0485	1.2799	12000	0.5412
0.0449	1.3332	12500	0.5511
0.0847	1.3865	13000	0.5492
0.0702	1.4398	13500	0.5509
0.0487	1.4932	14000	0.5447
0.072	1.5465	14500	0.5490
0.0325	1.5998	15000	0.5443
0.0894	1.6532	15500	0.5264
0.0503	1.7065	16000	0.5209
0.0568	1.7598	16500	0.5083
0.0589	1.8131	17000	0.5093
0.0892	1.8665	17500	0.4983
0.0584	1.9198	18000	0.4886
0.063	1.9731	18500	0.4945
0.0493	2.0265	19000	0.4956
0.0246	2.0798	19500	0.4871
0.0385	2.1331	20000	0.4830
0.0574	2.1864	20500	0.4849
0.039	2.2398	21000	0.4872
0.0653	2.2931	21500	0.4838
0.0325	2.3464	22000	0.4876
0.0578	2.3997	22500	0.4870
0.039	2.4531	23000	0.4805
0.0536	2.5064	23500	0.4824
0.0382	2.5597	24000	0.4809
0.0479	2.6131	24500	0.4749
0.0268	2.6664	25000	0.4723
0.0406	2.7197	25500	0.4743
0.0349	2.7730	26000	0.4718
0.017	2.8264	26500	0.4721
0.0286	2.8797	27000	0.4709
0.0265	2.9330	27500	0.4708
0.0552	2.9863	28000	0.4700

框架版本

Transformers 4.45.0.dev0
Pytorch 1.12.1
Datasets 2.21.0
Tokenizers 0.19.1

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24