L

Llama Joycaption Beta One Hf Llava GGUF

由 Mungert 开发
一个专为社区免费开放的图像字幕视觉语言模型(VLM),可用于训练扩散模型,支持多样化的图像风格和内容。
下载量 2,968
发布时间 : 6/8/2025

模型简介

该模型是一个基于Llama-3.1-8B-Instruct和SigLIP2的视觉语言模型,专注于生成高质量、多样化的图像字幕,适用于各种图像风格和内容。

模型特点

免费开源
模型权重开放,无使用限制,附带训练脚本和详细构建信息。
无审查
对安全内容(SFW)和不适宜公开内容(NSFW)的覆盖均衡,不会出现隐晦表述。
多样性
涵盖各种图像风格、内容、种族、性别、取向等,适合所有用户。
最小过滤
在大量图像上进行训练,能够理解现实世界的各个方面,但绝不包含非法内容。

模型能力

图像字幕生成
视觉语言理解
多样化内容生成

使用案例

图像字幕生成
生成正式描述性字幕
为图像生成详细、正式的字幕描述。
高质量、多样化的字幕输出。
训练扩散模型
用于训练扩散模型,生成更准确的图像描述。
提升扩散模型的生成质量。
AIbase
智启未来,您的人工智能解决方案智库
简体中文