Test With Sdfvd
基于MCG-NJU/videomae-base微调的视频理解模型,在评估集上表现一般(准确率50%)
视频处理
Transformers

T
cocovani
16
0
Internvl3 8B Hf
其他
InternVL3 是一个先进的多模态大语言模型系列,具备强大的多模态感知和推理能力,支持图像、视频和文本输入。
图像生成文本
Transformers

其他
I
OpenGVLab
454
1
Internvl3 1B Hf
其他
InternVL3 是一个先进的多模态大语言模型系列,展示了卓越的多模态感知和推理能力,支持图像、视频和文本输入。
图像生成文本
Transformers

其他
I
OpenGVLab
1,844
2
Datatrain Videomae Base Finetuned Lr1e 07 Poly3
基于MCG-NJU/videomae-base微调的视频理解模型,在未知数据集上训练,准确率为11.1%
视频处理
Transformers

D
EloiseInacio
13
0
Videomae Base Finetuned 1e 08 Bs4 Ep2
基于MCG-NJU/videomae-base微调的视频理解模型,在未知数据集上进行了训练
视频处理
Transformers

V
EloiseInacio
14
0
Qwen2.5 Omni 7B GPTQ 4bit
MIT
基于Qwen2.5-Omni-7B模型的4比特GPTQ量化版本,支持多语言和多模态任务。
多模态融合
Safetensors
支持多种语言
Q
FunAGI
3,957
51
Slowfast Video Mllm Qwen2 7b Convnext 576 Frame96 S1t6
采用创新的慢快架构来平衡视频理解中的时间分辨率和空间细节,克服了传统大语言模型的序列长度限制。
视频生成文本
Transformers

S
shi-labs
81
0
Videollama2.1 7B AV CoT
Apache-2.0
VideoLLaMA2.1-7B-AV是一款多模态大语言模型,专注于视听问答任务,能够同时处理视频和音频输入,提供高质量的问答和描述生成能力。
视频生成文本
Transformers

英语
V
lym0302
34
0
Videomind 2B
Bsd-3-clause
VideoMind是一个多模态智能体框架,通过模拟人类思维的处理流程(如任务拆解、时刻定位与验证和答案合成)来增强视频推理能力。
视频生成文本
V
yeliudev
207
1
Slowfast Video Mllm Qwen2 7b Convnext 576 Frame64 S1t4
采用慢-快架构的视频多模态大语言模型,平衡时间分辨率和空间细节,支持64帧视频理解
视频生成文本
Transformers

S
shi-labs
184
0
Tinyllava Video Qwen2.5 3B Group 16 512
Apache-2.0
TinyLLaVA-Video是基于Qwen2.5-3B和siglip-so400m-patch14-384构建的视频理解模型,采用分组重采样器处理视频帧
视频生成文本
T
Zhang199
76
0
Internvl 2 5 HiCo R16
Apache-2.0
InternVideo2.5 是一款基于长且丰富的上下文(LRC)建模增强的视频多模态大语言模型(MLLM),构建于 InternVL2.5 之上。
文本生成视频
Transformers

英语
I
FriendliAI
129
1
Llava NeXT Video 7B Hf
LLaVA-NeXT-Video-7B-hf 是一个基于视频的多模态模型,能够处理视频和文本输入,生成文本输出。
视频生成文本
Safetensors
英语
L
FriendliAI
30
0
Videomae Base Finetuned Signlanguage Last 3
基于MCG-NJU/videomae-base微调的视频理解模型,专注于手语识别任务
视频处理
Transformers

V
ihsanahakiim
21
1
Internvl2 5 4B AWQ
MIT
InternVL2_5-4B-AWQ 是使用 autoawq 对 InternVL2_5-4B 进行 AWQ 量化的版本,支持多语言和多模态任务。
图像生成文本
Transformers

其他
I
rootonchair
29
2
Magma 8B
MIT
Magma是一个多模态AI智能体基础模型,能够处理图像和文本输入并生成文本输出,具备虚拟与现实环境中的复杂交互能力。
图像生成文本
Transformers

M
microsoft
4,526
363
Smolvlm2 500M Video Instruct
Apache-2.0
轻量级多模态模型,专为分析视频内容设计,可处理视频、图像和文本输入以生成文本输出。
图像生成文本
Transformers

英语
S
HuggingFaceTB
17.89k
56
Smolvlm2 2.2B Instruct
Apache-2.0
SmolVLM2-2.2B 是一款轻量级多模态模型,专为分析视频内容而设计,可处理视频、图像和文本输入并生成文本输出。
图像生成文本
Transformers

英语
S
HuggingFaceTB
62.56k
164
Fluxi AI Small Vision
Apache-2.0
Fluxi AI 是一款基于 Qwen2-VL-7B-Instruct 的多模态智能助手,具备文本、图像和视频处理能力,特别优化了葡萄牙语支持。
图像生成文本
Transformers

其他
F
JJhooww
25
2
Internlm Xcomposer2d5 7b Chat
其他
InternLM-XComposer2.5-Chat是基于InternLM-XComposer2.5-7B训练的对话模型,在多模态指令跟随和开放式对话能力方面有显著提升。
文本生成图像
PyTorch
I
internlm
87
5
Eagle2 2B
Eagle2是NVIDIA推出的高性能视觉语言模型家族,专注于通过数据策略和训练方案提升开源视觉语言模型的性能。
文本生成图像
Transformers

其他
E
nvidia
667
21
Eagle2 9B
Eagle2-9B是NVIDIA发布的最新视觉语言模型(VLM),在性能和推理速度之间实现了完美平衡。
图像生成文本
Transformers

其他
E
nvidia
944
52
Llava Mini Llama 3.1 8b
Gpl-3.0
LLaVA-Mini是一款高效的多模态大模型,通过仅使用1个视觉令牌表示图像,显著提升了图像和视频理解的效率。
图像生成文本
L
ICTNLP
12.45k
51
Xgen Mm Vid Phi3 Mini R V1.5 128tokens 8frames
xGen-MM-Vid (BLIP-3-Video) 是一款高效的紧凑型视觉语言模型,配备了显式的时间编码器,专为理解视频内容而设计。
视频生成文本
Safetensors
英语
X
Salesforce
398
11
Mplug Owl3 7B 240728
Apache-2.0
mPLUG-Owl3 是一款前沿的多模态大语言模型,专为解决长图像序列理解难题而设计,支持处理单图、多图和视频任务。
文本生成图像
英语
M
mPLUG
4,823
39
Minicpm V 2 6 Int4
MiniCPM-V 2.6是一个多模态视觉语言模型,支持图像文本到文本的转换,具备多语言处理能力。
图像生成文本
Transformers

其他
M
openbmb
122.58k
79
Llava NeXT Video 7B DPO
LLaVA-Next-Video 是一个开源的多模态对话模型,通过对大语言模型进行多模态指令跟随数据的微调训练而成,支持视频和文本的多模态交互。
文本生成视频
Transformers

L
lmms-lab
8,049
27
Llava NeXT Video 7B
LLaVA-Next-Video 是一款开源的多模态对话机器人,通过大语言模型微调训练而成,支持视频和文本的多模态交互。
文本生成视频
Transformers

L
lmms-lab
1,146
46
Model Timesformer Subset 02
基于TimeSformer架构的视频理解模型,在未知数据集上微调,准确率达88.52%
视频处理
Transformers

M
namnh2002
15
0
Videomae Base Finetuned Subset
基于MCG-NJU/videomae-base模型在未知数据集上微调的视频理解模型,准确率达67.13%
视频处理
Transformers

V
Joy28
2
0
MMICL Instructblip T5 Xxl
MIT
MMICL是一个结合了blip2/instructblip的多模态视觉语言模型,能够分析和理解多张图像并遵循指令。
图像生成文本
Transformers

英语
M
BleachNick
156
11
Videomae Base Ipm All Videos
基于VideoMAE基础模型在未知视频数据集上微调的视觉模型,主要用于视频理解任务,在评估集上达到85.59%的准确率。
视频处理
Transformers

V
rickysk
30
0
Videomae Base Finetuned
基于MCG-NJU/videomae-base在未知数据集上微调的视频理解模型,F1分数达到0.7147
视频处理
Transformers

V
sheraz179
15
0
Videomae Base Finetuned
基于VideoMAE基础模型在未知数据集上微调的视频理解模型,在评估集上达到86.41%的准确率
视频处理
Transformers

V
LouisDT
15
0
Vivit B 16x2
MIT
ViViT是对视觉变换器(ViT)的扩展,适用于视频处理,主要用于视频分类等下游任务。
视频处理
Transformers

V
google
989
11
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers

支持多种语言
L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers

英语
C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统
中文
R
uer
2,694
98
AIbase是一个专注于MCP服务的平台,为AI开发者提供高质量的模型上下文协议服务,助力AI应用开发。
简体中文