vit-base-movie-scenes-v1开源视觉模型 - 精准识别蝙蝠侠与哈利·波特电影场景图像

首页

Vit Base Movie Scenes V1

由 dingusagar 开发

基于google/vit-base-patch16-224-in21k微调的视觉模型，专门用于识别蝙蝠侠和哈利·波特电影场景图像

图像分类

Transformers

开源协议:Apache-2.0 #电影场景识别 #视觉Transformer微调 #跨电影分类

下载量 72

发布时间 : 7/9/2022

模型简介

该模型是基于Vision Transformer架构的图像分类模型，针对特定电影场景进行了优化

模型特点

电影场景识别

专门针对蝙蝠侠和哈利·波特电影场景优化的图像分类能力

基于ViT架构

采用Vision Transformer基础架构，具有强大的图像特征提取能力

轻量级微调

在预训练模型基础上仅进行一轮微调，保持模型效率

模型能力

电影场景图像分类

特定电影角色识别

场景特征提取

使用案例

影视内容分析

电影场景分类

自动识别和分类蝙蝠侠或哈利·波特电影中的场景

影视内容检索

基于视觉内容的电影片段检索系统

教育娱乐

电影知识问答系统

结合视觉识别的电影知识互动应用

Apache-2.0

Qwen2.5-VL-7B-Abliterated-Caption-it的量化版本，支持多语言图像描述任务。

Nunchaku Flux.1 Dev Colossus

其他

Colossus Project Flux 的 Nunchaku 量化版本，旨在根据文本提示生成高质量图像。该模型在优化推理效率的同时，将性能损失降至最低。

图像生成英语

nunchaku-tech

235

Qwen2.5 VL 7B Abliterated Caption It GGUF

Apache-2.0

这是一个基于Qwen2.5-VL-7B模型的静态量化版本，专注于图像描述生成任务，支持多种语言。

olmOCR-7B-0725-FP8是基于Qwen2.5-VL-7B-Instruct模型，使用olmOCR-mix-0225数据集微调后量化为FP8版本的文档OCR模型。

Lucy-128k是基于Qwen3-1.7B开发的专注于代理式网络搜索和轻量级浏览的模型，在移动设备上也能高效运行。

智启未来，您的人工智能解决方案智库

Vit Base Movie Scenes V1

模型介绍

内容详情

替代品

模型简介

模型特点

模型能力

使用案例

🚀 vit-base-movie-scenes-v1

🚀 快速开始

📄 许可证

📚 详细文档

训练超参数

框架版本

精选推荐AI模型