Vip Llava 7b

V

Vip Llava 7b

由 mucai 开发

ViP-LLaVA 是一款开源多模态聊天机器人，通过对 LLaMA/Vicuna 进行图像和区域级别指令数据的微调训练而成。

文本生成图像

#区域级视觉理解 #多模态指令微调 #视觉提示标注

下载量 66.75k

发布时间 : 12/3/2023

模型简介

ViP-LLaVA 是一款基于 Transformer 架构的自回归语言模型，主要用于大型多模态模型和聊天机器人的研究。

模型特点

多模态能力

结合视觉和语言理解能力，可处理图像和文本输入

区域级视觉理解

能够理解图像中的特定区域并进行推理

开源可访问

模型开源，可供研究和开发使用

高性能

在多个区域级基准测试中达到最先进性能

模型能力

图像理解

区域级视觉推理

多模态对话

图像描述生成

使用案例

学术研究

多模态模型研究

用于研究视觉语言模型的性能和能力

在 RegionBench 等基准测试中表现优异

计算机视觉研究

用于研究图像理解和区域级视觉推理

应用开发

智能聊天机器人

开发能够理解图像内容的对话系统

图像分析工具

开发能够分析图像特定区域的工具

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24