Show O2 1.5B
模型简介
Show-o2在文本令牌和3D因果VAE空间上进行多模态理解和生成的统一学习,提出双路径的空间(-时间)融合方法,适用于多模态任务。
模型特点
统一学习框架
在文本令牌和3D因果VAE空间上实现多模态理解和生成的统一学习
双路径融合
采用双路径的空间(-时间)融合方法,适应不同模态的特征依赖
特定头部设计
结合自回归建模和流匹配,实现多模态理解与生成的统一学习
模型能力
多模态理解
文本到图像生成
图像描述生成
视觉问答
多语言支持
使用案例
视觉理解
图像描述
对输入图像生成详细描述
可生成包含对象、场景和关系的自然语言描述
视觉问答
回答关于图像内容的自然语言问题
能准确回答关于图像中对象数量、文字内容等问题
内容生成
文本到图像生成
根据文本提示生成高质量图像
支持多种分辨率(432x432至1024x1024)的图像生成
精选推荐AI模型
Qwen2.5 VL 7B Abliterated Caption It I1 GGUF
Apache-2.0
Qwen2.5-VL-7B-Abliterated-Caption-it的量化版本,支持多语言图像描述任务。
图像生成文本
Transformers 支持多种语言

Q
mradermacher
167
1
Nunchaku Flux.1 Dev Colossus
其他
Colossus Project Flux 的 Nunchaku 量化版本,旨在根据文本提示生成高质量图像。该模型在优化推理效率的同时,将性能损失降至最低。
图像生成 英语
N
nunchaku-tech
235
3
Qwen2.5 VL 7B Abliterated Caption It GGUF
Apache-2.0
这是一个基于Qwen2.5-VL-7B模型的静态量化版本,专注于图像描述生成任务,支持多种语言。
图像生成文本
Transformers 支持多种语言

Q
mradermacher
133
1
Olmocr 7B 0725 FP8
Apache-2.0
olmOCR-7B-0725-FP8是基于Qwen2.5-VL-7B-Instruct模型,使用olmOCR-mix-0225数据集微调后量化为FP8版本的文档OCR模型。
图像生成文本
Transformers 英语

O
allenai
881
3
Lucy 128k GGUF
Apache-2.0
Lucy-128k是基于Qwen3-1.7B开发的专注于代理式网络搜索和轻量级浏览的模型,在移动设备上也能高效运行。
大型语言模型
Transformers 英语

L
Mungert
263
2