QwenStoryteller-GGUF开源视觉叙事模型 - 支持一致故事生成与图像转文本

首页

Qwenstoryteller GGUF

由 mradermacher 开发

基于Qwen的视觉叙事模型量化版本，专注于跨帧一致的故事生成和图像转文本任务

图像生成文本英语开源协议:Apache-2.0 #视觉叙事生成 #跨帧一致性 #思维链推理

下载量 195

发布时间 : 5/13/2025

模型简介

该模型是QwenStoryteller的静态量化版本，专门优化了视觉叙事能力，支持基于图像输入生成连贯的故事文本，并保持跨帧一致性。

模型特点

跨帧一致性

在生成多帧图像描述时保持故事连贯性和逻辑一致性

思维链支持

支持思维链推理，能生成更符合逻辑的叙事内容

多重量化选项

提供从Q2_K到f16共12种量化版本，满足不同硬件和精度需求

视觉语言理解

能够理解图像内容并转化为富有表现力的文本描述

模型能力

图像转文本生成

视觉叙事

连贯故事创作

多模态理解

使用案例

内容创作

漫画脚本生成

根据漫画分镜图像自动生成连贯的对话和旁白

保持角色性格和情节连贯性的脚本

教育叙事

将教育类插图转化为适合儿童阅读的故事文本

寓教于乐的故事内容

辅助创作

影视分镜描述

为影视分镜图生成详细场景描述

可用于剧本创作的详细场景说明

🚀 QwenStoryteller量化模型

本项目提供了QwenStoryteller模型的静态量化版本，可用于视觉语言相关任务，如视觉叙事、基于图像的文本生成等。

🚀 快速开始

若你不确定如何使用GGUF文件，请参考TheBloke的README获取更多详细信息，包括如何拼接多部分文件。

✨ 主要特性

模型类型：视觉语言模型
应用场景：视觉叙事、思维链推理、基于图像的文本生成、跨帧一致性处理等
量化版本：提供多种量化类型，满足不同需求

📦 安装指南

文档未提及具体安装步骤，跳过此章节。

💻 使用示例

文档未提供代码示例，跳过此章节。

📚 详细文档

关于

静态量化版本基于https://huggingface.co/daniel3303/QwenStoryteller。加权/矩阵量化文件可在https://huggingface.co/mradermacher/QwenStoryteller-i1-GGUF获取。

提供的量化版本

（按大小排序，不一定代表质量。IQ量化通常优于类似大小的非IQ量化）

链接	类型	大小/GB	备注
GGUF	Q2_K	3.1
GGUF	Q3_K_S	3.6
GGUF	Q3_K_M	3.9	质量较低
GGUF	Q3_K_L	4.2
GGUF	IQ4_XS	4.4
GGUF	Q4_K_S	4.6	快速，推荐
GGUF	Q4_K_M	4.8	快速，推荐
GGUF	Q5_K_S	5.4
GGUF	Q5_K_M	5.5
GGUF	Q6_K	6.4	质量非常好
GGUF	Q8_0	8.2	快速，质量最佳
GGUF	f16	15.3	16位每权重，过度配置