timesformer-bert-video-captioning开源视频字幕生成模型

Timesformer Bert Video Captioning

由 AlexZigma 开发

基于Timesformer和BERT架构的视频字幕生成模型，能够为视频内容生成描述性字幕。

下载量 83

发布时间 : 7/12/2023

模型简介

该模型结合了Timesformer的视频理解能力和BERT的语言生成能力，用于自动生成视频内容的描述性字幕。

多模态理解

结合视觉和语言模型，能够理解视频内容并生成相应字幕。

高效训练

使用Adam优化器和线性学习率调度器，在较短时间内完成训练。

性能优化

通过多轮训练不断优化模型性能，胭脂和蓝值指标逐步提升。

视频内容理解

自动字幕生成

多模态数据处理

媒体与娱乐

视频自动字幕生成

为视频内容自动生成描述性字幕，提升可访问性。

胭脂1得分30.0468，蓝值4.8298

教育

教学视频字幕生成

自动为教育视频生成字幕，辅助学习过程。

这是一个在None数据集上微调的模型，可用于视频字幕生成。该模型在评估集上取得了一系列不错的结果，如Rouge1达到30.0468，Bleu达到4.8298等。

该模型使用了以下评估指标：

此模型在评估集上取得了以下结果：

属性	详情
模型名称	timesformer-bert-video-captioning
评估指标	Rouge、Bleu

训练过程中使用了以下超参数：

训练损失	轮数	步数	Bleu	生成长度	验证损失	Rouge1	Rouge2	Rougel	Rougelsum
2.4961	0.12	200	1.5879	9.5332	1.6548	25.4717	5.11	24.6679	24.6696
1.6561	0.25	400	2.3515	9.5332	1.5339	26.1748	5.9106	25.413	25.3958
1.5772	0.37	600	2.266	9.5332	1.4510	28.6891	6.0431	27.7387	27.8043
1.492	0.49	800	3.6517	9.5332	1.3760	29.0257	7.8515	28.3142	28.3036
1.4736	0.61	1000	3.4866	9.5332	1.3425	27.9774	6.2175	26.7783	26.7207
1.3856	0.74	1200	3.1649	9.5332	1.3118	27.3532	6.5569	26.4964	26.5087
1.3972	0.86	1400	3.5337	9.5332	1.2868	28.233	7.6471	27.3651	27.3354
1.374	0.98	1600	3.5737	9.5332	1.2571	28.8216	7.542	27.9166	27.9353
1.2207	1.1	1800	3.7983	9.5332	1.3362	29.9574	8.1088	28.8866	28.855
1.1861	1.23	2000	3.6521	9.5332	1.3295	30.072	7.7799	28.8417	28.864
1.1173	1.35	2200	3.9784	9.5332	1.3335	29.736	7.9661	28.6877	28.6974
1.1255	1.47	2400	4.3021	9.5332	1.3097	29.8176	8.4656	28.958	28.9571
1.0909	1.6	2600	1.3095	30.0233	8.4896	29.2562	29.2375	4.4782	9.5332
1.1205	1.72	2800	1.2992	29.7164	8.007	28.5027	28.5018	4.44	9.5332
1.1069	1.84	3000	1.2830	29.851	8.4312	28.8139	28.8205	4.6065	9.5332
1.076	1.96	3200	1.2821	30.0468	8.4998	29.0632	29.0231	4.8298	9.5332