Nousresearch Nous Hermes 2 Vision GGUF

由 PsiPi 开发

基于Mistral-7B的视觉语言模型，融合SigLIP-400M视觉编码器和函数调用能力，支持多模态交互

图像生成文本

英语

开源协议:Apache-2.0 #视觉语言函数调用 #SigLIP高效编码 #多模态对话系统

下载量 905

发布时间 : 12/7/2023

模型介绍

内容详情

替代品

模型简介

这是一个突破性的视觉语言模型，通过SigLIP架构和函数调用数据集增强，能够处理复杂的视觉语言任务并执行自动化操作

模型特点

高效视觉编码

采用SigLIP-400M架构替代传统3B视觉编码器，在保持轻量化的同时实现性能突破

函数调用能力

通过15万条私有函数调用数据训练，模型可解析并执行结构化函数调用

多模态交互

支持图像理解和文本生成的联合处理，实现复杂的视觉语言任务

模型能力

图像理解

视觉问答

结构化数据提取

多轮对话

自动化任务执行

使用案例

智能客服

产品识别与推荐

根据用户上传的产品图片提供详细信息和建议

准确识别菜单中的食品项目并生成结构化输出

自动化系统

视觉数据提取

从图像中提取结构化信息并转换为JSON格式

成功提取公交车颜色、特征和状态等属性

语言:

英文许可证: Apache-2.0 标签:
密斯特拉
指令微调
对话式
ChatML
GPT4
合成数据
知识蒸馏
多模态
LLaVA 基础模型: mistralai/Mistral-7B-v0.1 任务类型: 图文生成模型索引:
名称: Nous-Hermes-2-Vision 成果: []

GGUF量化版本由Twobob提供，感谢@jartine和@cmp-nct的协助

参考vicuna实现：此处

注意事项：推理过程中仍存在某些可能在上游修复的bug，特此告知 image/png

Nous-Hermes-2-Vision - Mistral 7B版

image/png

在希腊神话的织锦中，赫尔墨斯作为众神的雄辩信使，以沟通艺术巧妙连接不同领域。为致敬这位神圣中介，我将此先进大语言模型命名为"赫尔墨斯"，一个为驾驭人类话语复杂精妙而打造的系统。

模型描述

Nous-Hermes-2-Vision是开创性的视觉语言模型，基于teknium开发的OpenHermes-2.5-Mistral-7B进行升级，具有两项突破性改进：

SigLIP-400M融合：摒弃传统3B视觉编码器，采用高效的SigLIP-400M架构，在保持轻量化的同时，凭借SigLIP的卓越能力实现了超常规性能突破。
函数调用增强数据集：通过独创的函数调用训练数据，模型进化为视觉语言行动模型，为开发者提供了打造智能自动化系统的强大工具。

项目由stablequan和teknium主导开发。

训练数据

22万条来自LVIS-INSTRUCT4V
6万条来自ShareGPT4V
15万条私有函数调用数据
5万条对话来自teknium的OpenHermes-2.5

使用指南

提示格式

与其他LLaVA变体相同，采用Vicuna-V1对话模板，详见此文件中的conv_llava_v1
Gradio界面请访问GitHub仓库

函数调用

函数调用需以<fn_call>标签开头，示例如下：

<fn_call>{
  "类型": "对象",
  "属性": {
    "公交车颜色": {
      "类型": "数组",
      "描述": "图中公交车的颜色",
      "元素": {
        "类型": "字符串",
        "枚举值": ["红","蓝","绿","白"]
      }
    },
    "公交车特征": {
      "类型": "字符串",
      "描述": "公交车尾部可见特征"
    },
    "位置状态": {
      "类型": "字符串",
      "描述": "公交车所处位置状态",
      "枚举值": ["行驶中","靠边停靠"]
    }
  }
}

输出示例：

{
  "公交车颜色": ["红","白"],
  "公交车特征": "广告牌",
  "位置状态": "行驶中"
}

案例演示

对话功能

image/png

函数调用

输入图片：

输入指令：

<fn_call>{
    "类型": "对象",
    "属性": {
      "食品列表": {
        "类型": "数组",
        "描述": "所有食品清单",
        "元素": {
          "类型": "字符串"
        }
      }
    }
}

输出结果：

{
    "食品列表": [
        "双层汉堡",
        "芝士汉堡",
        "薯条",
        "奶昔",
        "咖啡"
    ]
}

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

AIbase是一个专注于MCP服务的平台，为AI开发者提供高质量的模型上下文协议服务，助力AI应用开发。

简体中文

热门模型

Llama 3 Typhoon V1.5x 8b Instruct

Cadet Tiny

Roberta Base Chinese Extractive Qa

热门模型分类

热门标签