视频内容分析

# 视频内容分析

Video-R1-7B是基于Qwen2.5-VL-7B-Instruct优化的多模态大语言模型，专注于视频推理任务，能够理解视频内容并回答相关问题。

视频生成文本

Transformers 英语

Youtube Xlm Roberta Base Sentiment Multilingual

基于cardiffnlp/twitter-xlm-roberta-base-sentiment-multilingual微调的YouTube评论情感分析模型，准确率80.17%

Ola-7B是由腾讯、清华大学和南洋理工大学联合开发的多模态语言模型，基于Qwen2.5架构，支持文本、图像、视频和音频输入，输出文本内容。

文本生成文本支持多种语言

Smolvlm2 256M Video Instruct

SmolVLM2-256M-Video是一款轻量级多模态模型，专为分析视频内容而设计，能够处理视频、图像和文本输入并生成文本输出。

图像生成文本

Transformers 英语

Eagle2是一个高性能的视觉语言模型系列，专注于通过数据策略和训练方法的优化来提升模型性能。Eagle2-9B是该系列中的大型模型，在性能和推理速度之间取得了良好平衡。

文本生成图像

Transformers 其他

KnutJaegersberg

Internvl 2 5 HiCo R64

基于长且丰富的上下文（LRC）建模增强的视频多模态大语言模型，通过提升感知细粒度细节和捕捉长时态结构的能力改进现有MLLM

视频生成文本

Transformers 英语

Videomae Large Finetuned Deepfake Subset

基于MCG-NJU/videomae-large模型在深度伪造检测挑战赛数据集上微调的版本，用于视频深度伪造检测。

Mplug Owl3 2B 241014

mPLUG-Owl3 是一款先进的多模态大语言模型，专注于解决长图像序列理解的挑战，通过超注意力机制显著提升处理速度和序列长度。

文本生成图像

Safetensors 英语

Internlm Xcomposer2d5 7b 4bit

InternLM-XComposer2.5是一款卓越的图文理解与创作模型，仅用7B参数即达到GPT-4V水平，支持24K交错图文上下文并可扩展至96K长上下文。

文本生成图像

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24