Liuhaotian Llava V1.5 13b GGUF

L

Liuhaotian Llava V1.5 13b GGUF

由 PsiPi 开发

LLaVA 是一个开源多模态聊天机器人，基于LLaMA/Vicuna架构，通过多模态指令跟随数据微调训练而成。

文本生成图像 #多模态对话 #视觉问答 #指令跟随

下载量 1,225

发布时间 : 12/1/2023

模型简介

LLaVA是一个研究性质的大型多模态模型，主要用于计算机视觉、自然语言处理和人工智能领域的研究。

模型特点

多模态能力

能够同时处理图像和文本输入，实现跨模态理解

指令跟随

经过专门训练以遵循多模态指令

开源模型

采用开源许可证，可供研究和开发使用

端到端推理

支持通过llama.cpp进行无需额外依赖的推理

模型能力

图像-文本对话

视觉问答

图像描述生成

多模态指令跟随

跨模态理解

使用案例

学术研究

多模态模型研究

用于研究大型多模态模型的性能和能力边界

人机交互研究

探索基于视觉和语言的多模态人机交互方式

教育应用

视觉辅助学习

帮助学生理解复杂视觉内容

🚀 LLaVA模型卡片

LLaVA是一个开源的聊天机器人模型，通过在GPT生成的多模态指令跟随数据上微调LLaMA/Vicuna得到。它基于Transformer架构，可用于多模态模型和聊天机器人的研究。

🚀 快速开始

本仓库包含用于使用llama.cpp对llava - v1.5 - 13b进行端到端推理的GGUF文件，无需任何额外依赖。

✨ 主要特性

多模态能力：LLaVA是在多模态指令跟随数据上微调得到，具备处理图像和文本的能力。
开源可用：作为开源模型，方便研究人员和爱好者使用和进一步开发。

📚 详细文档

🔍 模型详情

属性	详情
模型类型	LLaVA是一个基于Transformer架构的自回归语言模型，通过在GPT生成的多模态指令跟随数据上微调LLaMA/Vicuna得到。
模型日期	LLaVA - v1.5 - 13B于2023年9月训练。
更多信息的论文或资源	https://llava - vl.github.io/

💡 预期用途

主要预期用途：LLaVA主要用于大型多模态模型和聊天机器人的研究。
主要预期用户：该模型的主要预期用户是计算机视觉、自然语言处理、机器学习和人工智能领域的研究人员和爱好者。

📊 训练数据集

558K经过过滤的来自LAION/CC/SBU的图像 - 文本对，由BLIP添加标题。
158K GPT生成的多模态指令跟随数据。
450K面向学术任务的VQA混合数据。
40K ShareGPT数据。

📈 评估数据集

包含12个基准测试的集合，其中包括5个学术VQA基准测试和7个最近专门为指令跟随的大型多模态模型（LMMs）提出的基准测试。

⚠️ 注意事项

⚠️ 重要提示

mmproj - model - f16.gguf文件结构是实验性的，可能会发生变化。请始终使用llama.cpp中的最新代码。

❓ 问题反馈

模型相关问题或建议的反馈地址：https://github.com/haotian - liu/LLaVA/issues

📄 许可证

Llama 2遵循LLAMA 2社区许可证，版权所有 (c) Meta Platforms, Inc. 保留所有权利。

image/png

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24