视频文本对比学习
Xclip Base Patch16 Zero Shot
MIT
X-CLIP是CLIP的极简扩展,用于通用视频-语言理解,通过对比学习训练视频和文本的匹配关系。
文本生成视频
Transformers
英语
X
aurelio-ai
22
1
Xclip Large Patch14 Kinetics 600
MIT
X-CLIP是CLIP的扩展版本,用于通用视频语言理解,通过对比学习在视频和文本对上训练。
文本生成视频
Transformers
英语
X
microsoft
124
5
Xclip Base Patch16 Kinetics 600 16 Frames
MIT
X-CLIP是对CLIP的扩展,用于通用视频语言理解,支持零样本、少样本或全监督的视频分类以及视频-文本检索等任务。
文本生成视频
Transformers
英语
X
microsoft
393
2
Xclip Base Patch16 Kinetics 600
MIT
X-CLIP是CLIP的扩展版本,用于通用的视频语言理解,通过对比学习在(视频,文本)对上训练。
文本生成视频
Transformers
英语
X
microsoft
294
1
Xclip Base Patch16 Hmdb 4 Shot
MIT
X-CLIP是CLIP的极简扩展,用于通用视频语言理解,通过(视频,文本)对的对比方式进行训练。
视频生成文本
Transformers
英语
X
microsoft
22
1
Xclip Base Patch16 16 Frames
MIT
X-CLIP是对CLIP的极简扩展,用于通用视频-语言理解,通过对比学习在(视频,文本)对上训练。
文本生成视频
Transformers
英语
X
microsoft
1,034
0
Xclip Base Patch16
MIT
X-CLIP是CLIP的扩展版本,用于通用视频语言理解,通过对比学习在(视频,文本)对上训练,适用于视频分类和视频-文本检索等任务。
文本生成视频
Transformers
英语
X
microsoft
1,647
4
Xclip Base Patch32
MIT
X-CLIP是CLIP的扩展版本,用于通用视频语言理解,通过对比学习在(视频,文本)对上训练,适用于视频分类和视频-文本检索等任务。
文本生成视频
Transformers
英语
X
microsoft
309.80k
84