N

Nousresearch Nous Hermes 2 Vision GGUF

由 PsiPi 开发
基于Mistral-7B的视觉语言模型,融合SigLIP-400M视觉编码器和函数调用能力,支持多模态交互
下载量 905
发布时间 : 12/7/2023
模型介绍
内容详情
替代品

模型简介

这是一个突破性的视觉语言模型,通过SigLIP架构和函数调用数据集增强,能够处理复杂的视觉语言任务并执行自动化操作

模型特点

高效视觉编码
采用SigLIP-400M架构替代传统3B视觉编码器,在保持轻量化的同时实现性能突破
函数调用能力
通过15万条私有函数调用数据训练,模型可解析并执行结构化函数调用
多模态交互
支持图像理解和文本生成的联合处理,实现复杂的视觉语言任务

模型能力

图像理解
视觉问答
结构化数据提取
多轮对话
自动化任务执行

使用案例

智能客服
产品识别与推荐
根据用户上传的产品图片提供详细信息和建议
准确识别菜单中的食品项目并生成结构化输出
自动化系统
视觉数据提取
从图像中提取结构化信息并转换为JSON格式
成功提取公交车颜色、特征和状态等属性