Vfusion3d
VFusion3D是一个通过少量3D数据与大量合成多视角数据训练的大型前馈式3D生成模型,是首个研究可扩展3D生成/重建模型的工作。
下载量 57
发布时间 : 8/10/2024
模型简介
基于视频扩散模型的可扩展3D生成模型,用于3D生成和重建任务。
模型特点
可扩展3D生成
通过少量3D数据与大量合成多视角数据训练,实现可扩展的3D生成
前馈式架构
采用前馈式架构,相比传统方法更高效
视频扩散模型基础
基于视频扩散模型构建,充分利用时序信息
模型能力
3D模型生成
3D重建
多视角合成
使用案例
3D内容创作
3D资产生成
从单张图像生成3D模型
可生成高质量3D模型
虚拟现实
VR场景构建
快速生成3D场景元素
加速VR内容开发流程
精选推荐AI模型
Qwen2.5 VL 7B Abliterated Caption It I1 GGUF
Apache-2.0
Qwen2.5-VL-7B-Abliterated-Caption-it的量化版本,支持多语言图像描述任务。
图像生成文本
Transformers 支持多种语言

Q
mradermacher
167
1
Nunchaku Flux.1 Dev Colossus
其他
Colossus Project Flux 的 Nunchaku 量化版本,旨在根据文本提示生成高质量图像。该模型在优化推理效率的同时,将性能损失降至最低。
图像生成 英语
N
nunchaku-tech
235
3
Qwen2.5 VL 7B Abliterated Caption It GGUF
Apache-2.0
这是一个基于Qwen2.5-VL-7B模型的静态量化版本,专注于图像描述生成任务,支持多种语言。
图像生成文本
Transformers 支持多种语言

Q
mradermacher
133
1
Olmocr 7B 0725 FP8
Apache-2.0
olmOCR-7B-0725-FP8是基于Qwen2.5-VL-7B-Instruct模型,使用olmOCR-mix-0225数据集微调后量化为FP8版本的文档OCR模型。
图像生成文本
Transformers 英语

O
allenai
881
3
Lucy 128k GGUF
Apache-2.0
Lucy-128k是基于Qwen3-1.7B开发的专注于代理式网络搜索和轻量级浏览的模型,在移动设备上也能高效运行。
大型语言模型
Transformers 英语

L
Mungert
263
2