H

Heron Preliminary Git Llama 2 70b V0

由 turing-motors 开发
一个通过图像-文本对进行预训练的视觉语言模型,基于Llama-2 70B架构,适用于图像描述生成任务。
下载量 14
发布时间 : 9/7/2023
模型介绍
内容详情
替代品

模型简介

该模型使用GIT适配器在M3IT Coco Captions数据集上进行训练,主要用于图像到文本的转换任务。

模型特点

视觉语言理解
能够理解图像内容并生成相应的文本描述
大模型架构
基于Llama-2 70B大语言模型,具备强大的语言理解能力
GIT适配器
使用GIT(GenerativeImage2Text)架构实现图像到文本的转换

模型能力

图像理解
文本生成
图像描述生成

使用案例

计算机视觉
图像自动标注
为图像自动生成描述性文本
辅助工具
视觉辅助
为视障人士提供图像内容描述