低显存优化

# 低显存优化

基于HiDream-I1-Full的ControlNet PEFT LoRA模型，支持文本到图像和图像到图像的转换

Smolvlm Instruct GGUF

SmolVLM是一个紧凑的开源多模态模型，能够接受图像和文本输入并生成文本输出，专为高效设计，适用于设备端应用。

图像生成文本

Transformers 英语

Llama Joycaption Beta One Hf Llava GGUF

一个专为社区免费开放的图像字幕视觉语言模型（VLM），可用于训练扩散模型，支持多样化的图像风格和内容。

图像生成文本

基于Mochi-1预览模型进行LoRA微调的版本，专注于文本到视频生成任务

文本生成视频

Qwen2.5 Omni 7B AWQ

Qwen2.5-Omni是一款端到端多模态模型，能够感知包括文本、图像、音频和视频在内的多种模态，同时以流式方式生成文本和自然语音响应。

多模态融合

Transformers 英语

LTX Video 0.9.7 Dev

首个基于DiT架构的实时高质量视频生成模型，能以30帧/秒生成1216×704分辨率视频

视频处理英语

GLM4 32B Neon V2

基于 GLM-4-32B-0414 的角色扮演微调版本，表现优秀，个性鲜明，风格多样，文笔优美。

大型语言模型

Transformers 英语

Orpheus-3b FT的4位AWQ量化版本，专为文本转语音任务优化，支持语音克隆功能。

语音合成英语

YaTharThShaRma999

Deepseek V3 0324 GGUF UD

DeepSeek-V3-0324 是由 Unsloth 提供的动态量化版本，支持在 llama.cpp、LMStudio 等推理框架中运行。

大型语言模型英语

Auraflow DomoKun LoRA Rank8

基于fal/AuraFlow训练的标准PEFT LoRA模型，专注于生成多摩君形象的文生图和图生图任务。

FLUX Hyperscale Fused

FLUX是一个融合了5个高质量微调适配器的文本生成图像模型，能够生成多种风格的逼真图像

图像生成英语

Deepseek V3 0324 GGUF

当前V3-0324模型在该尺寸类别中表现最佳的量化版本，在保持性能接近Q8_0的同时显著减小了体积

大型语言模型其他

Wan2.1 Fun 1.3B Control

Wan2.1-Fun-1.3B是一个文本生成视频的模型，支持多分辨率训练及首尾帧预测。

文本生成视频支持多种语言

Origami WanLora

这是一个基于Wan2.1-T2V-14B模型的LoRA适配器，用于生成折纸风格的视频。

文本生成视频英语

Phi3 Uncensored Chat

基于microsoft/phi-3-mini-4k-instruct微调优化的版本，专为与各种角色进行角色扮演对话而设计

大型语言模型

Transformers 英语

Wan2.1 Fun 1.3B InP

Wan2.1-Fun-1.3B是由阿里巴巴PAI团队开发的文本生成视频模型，支持多分辨率训练及首尾帧预测。

文本生成视频支持多种语言

Steamboat Willie 1.3b

基于蒸汽船威利动画片段训练的LoRA模型，用于生成黄金时代动画风格的文本到视频内容

文本生成视频

Stable Diffusion XL的GGUF格式量化版本，提供不同量化级别以适应不同硬件配置。

文本生成图像

HyperX-Sentience

CogView4-6B 是一个基于 GLM-4-9B 基础模型的文生图模型，支持中文和英文，能够生成高质量的图像。

文本生成图像支持多种语言

这是一个为Wan2.1 14B视频生成模型训练的LoRA，适用于文本转视频和图像转视频任务。

视频处理支持多种语言

Cat Text To Video 2.3b

基于条件增强的文本生成视频模型，通过时序条件变换器扩展生成片段并实现平滑过渡，支持提示词插值功能

文本生成视频英语

Deepseek R1 AWQ

DeepSeek R1模型的AWQ量化版本，优化了float16溢出问题，支持高效推理部署

大型语言模型

Transformers 支持多种语言

cognitivecomputations

Minicpm O 2 6 Int4

MiniCPM-o 2.6的int4量化版本，显著降低GPU显存占用，支持多模态处理能力。

文本生成音频

Transformers 其他

FLUX.1-dev 是一个基于稳定扩散（Stable Diffusion）技术的文本生成图像模型，支持LoRA微调，适用于创意图像生成任务。

Illustrious模型是一个文本生成图像的AI模型，支持通过文本描述生成高质量图像。

文本生成图像英语

Controlnet Kohaku Canny Sdxl Fp16

基于Stable Diffusion XL的ControlNet模型，专注于通过Canny边缘检测实现精确的图像生成控制

Hunyuanvideo Gguf

腾讯幻影视频模型的GGUF量化版本，专为ComfyUI设计，用于文本生成视频任务

文本生成视频

Omnigen V1 Bnb 8bit

OmniGen-v1的8比特量化版本，适用于文生图和图生图任务，支持多模态输入。

文本生成图像

FLUX.1 Fill Dev GGUF

FLUX.1-Fill-dev 是一个基于 FLUX 技术的文本生成图像模型，专注于图像填充任务。

文本生成图像英语

Stable Diffusion V3 5 Large GGUF

Stable Diffusion 3.5大模型是一款多模态扩散变换器(MMDiT)文生图模型，在图像质量、文字排版、复杂提示词理解和资源效率方面均有显著提升。

文本生成图像英语

Aria Sequential Mlp Bnb Nf4

基于Aria-sequential_mlp的BitsAndBytes NF4量化版本，适用于图像文本到文本任务，显存需求约15.5 GB。

图像生成文本

Flux Actors Face Inset Cig Cards LoKr

基于FLUX.1-dev的LyCORIS适配器，专注于文本生成图像任务，特别适合工作环境使用。

Flux.1 Lite 8B Alpha

Flux.1精简版是从FLUX.1-dev模型蒸馏而来的8B参数Transformer模型，在保持相同精度（bfloat16）的同时，内存占用减少7GB，运行速度提升23%。

文本生成图像

Flux Fusion V2 4step Merge Gguf Nf4

由Schnell、微调版Dev和Hyper合并而成的文本生成图像模型，推荐步数为4-8步，4步时质量显著提升

文本生成图像英语

基于CogVideoX-5b的视频生成模型，能够根据文本描述生成高质量视频内容

文本生成视频英语

CogVideoX是源自清影的视频生成模型的开源版本，2B版本为入门级模型，平衡兼容性，运行和二次开发成本低。

文本生成视频英语

Chromafur Alpha Gguf

ChromaFur Alpha 是一个文本生成图像的模型，已转换为GGUF格式，适用于低端GPU或偏好快速加载的用户。

CogVideoX是源自清影的开源视频生成模型，2B版本是入门级模型，平衡兼容性，运行和二次开发成本低。

文本生成视频英语

Neuraldaredevil 8B Abliterated GGUF

这是对NeuralDaredevil-8B-abliterated模型进行量化处理的版本，提供了多种量化类型的模型文件，适用于不同硬件条件和需求的用户。

大型语言模型

Herobophades 3x7B

HeroBophades-3x7B是一个基于mergekit构建的实验性专家混合(LLM)模型，设计为在12GB显存的GPU上以4位模式运行。

大型语言模型

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24