license: other
license_name: cogvlm2
license_link: https://huggingface.co/THUDM/cogvlm2-video-llama3-chat/blob/main/LICENSE
language:
- en
pipeline_tag: text-generation
tags:
- chat
- cogvlm2
- cogvlm--video
inference: false
CogVLM2-Video-Llama3-Chat
中文版本README
模型介绍
CogVLM2-Video在多项视频问答任务中实现了最先进的性能表现,能在一分钟内完成视频理解。我们提供了两个示例视频展示CogVLM2-Video的视频理解与时间定位能力。
性能基准
下图展示了CogVLM2-Video在MVBench、VideoChatGPT-Bench以及零样本视频问答数据集(MSVD-QA, MSRVTT-QA, ActivityNet-QA)上的表现。其中VCG-*代表VideoChatGPTBench,ZS-*代表零样本视频问答数据集,MV-*代表MVBench主要类别。

VideoChatGPT-Bench与零样本视频问答数据集表现:
模型 |
VCG平均分 |
VCG-CI |
VCG-DO |
VCG-CU |
VCG-TU |
VCG-CO |
ZS平均分 |
IG-VLM GPT4V |
3.17 |
3.40 |
2.80 |
3.61 |
2.89 |
3.13 |
65.70 |
ST-LLM |
3.15 |
3.23 |
3.05 |
3.74 |
2.93 |
2.81 |
62.90 |
ShareGPT4Video |
N/A |
N/A |
N/A |
N/A |
N/A |
N/A |
46.50 |
VideoGPT+ |
3.28 |
3.27 |
3.18 |
3.74 |
2.83 |
3.39 |
61.20 |
VideoChat2_HD_mistral |
3.10 |
3.40 |
2.91 |
3.72 |
2.65 |
2.84 |
57.70 |
PLLaVA-34B |
3.32 |
3.60 |
3.20 |
3.90 |
2.67 |
3.25 |
68.10 |
CogVLM2-Video |
3.41 |
3.49 |
3.46 |
3.87 |
2.98 |
3.23 |
66.60 |
MVBench数据集表现:
模型 |
平均分 |
AA |
AC |
AL |
AP |
AS |
CO |
CI |
EN |
ER |
FA |
FP |
MA |
MC |
MD |
OE |
OI |
OS |
ST |
SC |
UA |
IG-VLM GPT4V |
43.7 |
72.0 |
39.0 |
40.5 |
63.5 |
55.5 |
52.0 |
11.0 |
31.0 |
59.0 |
46.5 |
47.5 |
22.5 |
12.0 |
12.0 |
18.5 |
59.0 |
29.5 |
83.5 |
45.0 |
73.5 |
ST-LLM |
54.9 |
84.0 |
36.5 |
31.0 |
53.5 |
66.0 |
46.5 |
58.5 |
34.5 |
41.5 |
44.0 |
44.5 |
78.5 |
56.5 |
42.5 |
80.5 |
73.5 |
38.5 |
86.5 |
43.0 |
58.5 |
ShareGPT4Video |
51.2 |
79.5 |
35.5 |
41.5 |
39.5 |
49.5 |
46.5 |
51.5 |
28.5 |
39.0 |
40.0 |
25.5 |
75.0 |
62.5 |
50.5 |
82.5 |
54.5 |
32.5 |
84.5 |
51.0 |
54.5 |
VideoGPT+ |
58.7 |
83.0 |
39.5 |
34.0 |
60.0 |
69.0 |
50.0 |
60.0 |
29.5 |
44.0 |
48.5 |
53.0 |
90.5 |
71.0 |
44.0 |
85.5 |
75.5 |
36.0 |
89.5 |
45.0 |
66.5 |
VideoChat2_HD_mistral |
62.3 |
79.5 |
60.0 |
87.5 |
50.0 |
68.5 |
93.5 |
71.5 |
36.5 |
45.0 |
49.5 |
87.0 |
40.0 |
76.0 |
92.0 |
53.0 |
62.0 |
45.5 |
36.0 |
44.0 |
69.5 |
PLLaVA-34B |
58.1 |
82.0 |
40.5 |
49.5 |
53.0 |
67.5 |
66.5 |
59.0 |
39.5 |
63.5 |
47.0 |
50.0 |
70.0 |
43.0 |
37.5 |
68.5 |
67.5 |
36.5 |
91.0 |
51.5 |
79.0 |
CogVLM2-Video |
62.3 |
85.5 |
41.5 |
31.5 |
65.5 |
79.5 |
58.5 |
77.0 |
28.5 |
42.5 |
54.0 |
57.0 |
91.5 |
73.0 |
48.0 |
91.0 |
78.0 |
36.0 |
91.5 |
47.0 |
68.5 |
评估细节
我们遵循先前工作的方法评估模型性能。针对不同基准,我们设计了特定任务提示词:
prompt = f"请仔细观察视频,重点关注事件因果与时序关系、物体细节与运动轨迹、人物动作与姿态。根据观察结果,选择最准确回答问题的选项。\n" + f"{prompt.replace('简短回答。', '')}\n" + "简短回答:"
prompt = f"请仔细观察视频,重点关注事件因果与时序关系、物体细节与运动轨迹、人物动作与姿态。根据观察结果,全面回答下列问题。答案需详尽覆盖所有相关方面\n" + f"{prompt.replace('简短回答。', '')}\n" + "回答:"
prompt = f"输入包含视频关键帧序列。请全面回答问题,涵盖所有可能描述事件的动词和名词,并说明贯穿各帧的重要事件、角色或物体。\n" + f"{prompt.replace('简短回答。', '')}\n" + "回答:"
评估代码请参考PLLaVA的评估脚本。
使用说明
本仓库为chat
版本模型,支持单轮对话。
您可以通过我们GitHub上的视频演示快速安装Python依赖并运行模型推理。
许可协议
本模型遵循CogVLM2许可协议。基于Meta Llama 3构建的模型还需遵守LLAMA3许可协议。
训练细节
具体训练公式与超参数设置请参阅我们的技术报告。