Razorback-12B-v0.2开源多模态模型 - 免费部署实现视觉理解与语言处理

首页

Razorback 12B V0.2

由 nintwentydo 开发

Razorback 12B v0.2 是一个结合了Pixtral 12B和UnslopNemo v3优势的多模态模型，具备视觉理解和语言处理能力。

图像生成文本

Transformers

支持多种语言开源协议:其他 #多模态视觉理解 #稳健参数合并 #多语言对话

下载量 17

发布时间 : 1/10/2025

模型简介

该模型通过合并Pixtral 12B和UnslopNemo v3，实现了视觉理解和语言处理的结合，旨在提供更具吸引力的内容和良好的智能表现。

模型特点

多模态能力

结合了视觉理解和语言处理能力，能够处理图像文本到文本的任务。

稳健合并

通过指数衰减计算合并权重，尽可能保留Pixtral的视觉理解能力，同时融入UnslopNemo的优点。

多语言支持

支持多种语言，包括英语、法语、德语、西班牙语、意大利语、葡萄牙语、俄语、中文和日语。

模型能力

文本生成

视觉理解

多语言处理

使用案例

内容生成

视觉内容描述

根据输入的图像生成详细的文本描述。

生成更具吸引力和智能的内容。

多语言应用

多语言文本生成

支持多种语言的文本生成任务。

适用于多语言环境下的应用。

🚀 Razorback 12B v0.2

Razorback 12B v0.2 是将 TheDrummer 的 UnslopNemo v3 与 Pixtral 12B 融合的成果，它兼具了两者的优势，输出内容更严谨、更具吸引力，同时具备不错的智能水平和视觉理解能力。

模型信息

属性	详情
基础模型	mistralai/Pixtral-12B-2409、TheDrummer/UnslopNemo-12B-v3
基础模型关系	融合
库名称	transformers
标签	mergekit、merge、multimodal、mistral、pixtral
支持语言	英语、法语、德语、西班牙语、意大利语、葡萄牙语、俄语、中文、日语
许可证	其他
任务类型	图像 - 文本到文本

Razorback

这是一次更稳健的尝试，将 TheDrummer 的 UnslopNemo v3 融合到 Pixtral 12B 中。在目前的测试中，它表现得非常稳定。不过，还需要更多测试来确定它对哪些采样器适用或不适用。它似乎结合了两者的优点，输出内容不那么松散，更具吸引力，并且具有不错的智能和视觉理解能力。

✨ 主要特性

融合优势：融合了 Pixtral 12B 的视觉理解能力和 UnslopNemo v3 的语言优势。
稳定性高：在初步测试中表现稳定。
多语言支持：支持英语、法语、德语等多种语言。

🔧 技术细节

融合方法

首先，加载 Pixtral 12B Base 和 Mistral Nemo Base 以比较它们的参数差异。通过查看 L2 范数 / 相对差异值，能够确定 Pixtral 12B 中与 Mistral Nemo 有显著偏差的部分。因为虽然两者的语言模型架构相同，但 Pixtral 的语言模型中融入了大量的视觉理解能力，并且很容易受到破坏。

然后，使用指数衰减计算每个参数的融合权重。差异越小，权重越高。

将此方法应用于 Pixtral Instruct (Pixtral - 12B - 2409) 和 TheDrummer 的 UnslopNemo - 12B - v3。目标是在不破坏视觉输入的前提下，尽可能多地融入 TheDrummer 模型的优点。目前看来，这个方法奏效了！