Vit Base Movie Scenes V1
V
Vit Base Movie Scenes V1
由 dingusagar 开发
基于google/vit-base-patch16-224-in21k微调的视觉模型,专门用于识别蝙蝠侠和哈利·波特电影场景图像
下载量 72
发布时间 : 7/9/2022
模型简介
该模型是基于Vision Transformer架构的图像分类模型,针对特定电影场景进行了优化
模型特点
电影场景识别
专门针对蝙蝠侠和哈利·波特电影场景优化的图像分类能力
基于ViT架构
采用Vision Transformer基础架构,具有强大的图像特征提取能力
轻量级微调
在预训练模型基础上仅进行一轮微调,保持模型效率
模型能力
电影场景图像分类
特定电影角色识别
场景特征提取
使用案例
影视内容分析
电影场景分类
自动识别和分类蝙蝠侠或哈利·波特电影中的场景
影视内容检索
基于视觉内容的电影片段检索系统
教育娱乐
电影知识问答系统
结合视觉识别的电影知识互动应用
精选推荐AI模型
Qwen2.5 VL 7B Abliterated Caption It I1 GGUF
Apache-2.0
Qwen2.5-VL-7B-Abliterated-Caption-it的量化版本,支持多语言图像描述任务。
图像生成文本
Transformers 支持多种语言

Q
mradermacher
167
1
Nunchaku Flux.1 Dev Colossus
其他
Colossus Project Flux 的 Nunchaku 量化版本,旨在根据文本提示生成高质量图像。该模型在优化推理效率的同时,将性能损失降至最低。
图像生成 英语
N
nunchaku-tech
235
3
Qwen2.5 VL 7B Abliterated Caption It GGUF
Apache-2.0
这是一个基于Qwen2.5-VL-7B模型的静态量化版本,专注于图像描述生成任务,支持多种语言。
图像生成文本
Transformers 支持多种语言

Q
mradermacher
133
1
Olmocr 7B 0725 FP8
Apache-2.0
olmOCR-7B-0725-FP8是基于Qwen2.5-VL-7B-Instruct模型,使用olmOCR-mix-0225数据集微调后量化为FP8版本的文档OCR模型。
图像生成文本
Transformers 英语

O
allenai
881
3
Lucy 128k GGUF
Apache-2.0
Lucy-128k是基于Qwen3-1.7B开发的专注于代理式网络搜索和轻量级浏览的模型,在移动设备上也能高效运行。
大型语言模型
Transformers 英语

L
Mungert
263
2