miniG开源多模态模型 - 支持文本图像输入，超实用的处理工具

Minig

由 CausalLM 开发

迷你G是一个基于大规模合成数据集训练的多模态模型，支持文本和图像输入，拥有1M标记的上下文窗口。

下载量 278

发布时间 : 8/25/2024

模型简介

迷你G是一个基于大规模合成数据集训练的多模态模型，支持文本和图像输入，拥有1M标记的上下文窗口。它在文本生成等任务上有一定表现，但在使用时需注意一些性能和安全方面的问题。

大规模数据集训练

在超过1.2亿条数据的合成数据集上训练，该数据集由最先进语言模型结合检索增强生成和知识图谱集成方法生成。

多模态输入支持

支持文本和图像输入，包含经过锁定图像微调的视觉语言模型实现。

大上下文窗口

上下文窗口达1M个标记。

高效训练

用16个节点（每个节点8个A100 - 80G显卡）一天内可实现高效朴素微调。

文本生成

图像理解

多模态推理

长文本处理

文本生成

背诵经典文章

让模型背诵《背影》（中文）或 'The Gift of the Magi'（英文），应能准确背诵包括格式在内的全文。

准确背诵全文

多模态应用

图像描述生成

基于输入的图像生成描述性文本。

迷你G是一个基于大规模合成数据集训练的模型，支持文本和图像输入，拥有1M标记的上下文窗口。它在文本生成等任务上有一定表现，但在使用时需注意一些性能和安全方面的问题。同时，项目团队正在积极训练更大参数模型，寻求计算资源和无条件资助。

模型权重链接：
- 纯文本权重
- GGML 用于 ChatGLM.cpp (推荐): https://github.com/li-plus/chatglm.cpp
- GGUF (纯文本，不推荐): 即使使用F16，性能也有显著下降。
新模型版本：新的 "alt" 版本已上传，该版本使用掩码上下文训练，在某些情况下稳定性更好，过拟合更少，但在知识保留和幻觉方面可能有局限。
检查推理性能：可让模型背诵《背影》（中文）或 "The Gift of the Magi"（英文），应能准确背诵包括格式在内的全文。

大规模数据集训练：在超过1.2亿条数据的合成数据集上训练，该数据集由最先进语言模型结合检索增强生成和知识图谱集成方法生成，数据合成在200亿标记的预训练语料库聚类内进行，并经模型自身验证。
支持多模态输入：支持文本和图像输入。对于纯文本权重，使用 https://huggingface.co/CausalLM/miniG/tree/text-only 上的 revision=text-only 分支；PR #9194 合并后，GGUF 对纯文本应可正常工作。
视觉语言模型实现：包含经过锁定图像微调的视觉语言模型实现。
大上下文窗口：上下文窗口达1M个标记。
模型参数情况：LLM - 9B（从THUDM/glm-4-9b-chat-1m初始化）；可选的ViT - 5B。

最终发布版本使用多个候选模型合并尝试提升性能，但效果未明确。排除候选版本和合并实验，用16个节点（每个节点8个A100 - 80G显卡）一天内可实现高效朴素微调，估算碳排放量为700公斤二氧化碳当量。

推理实现选择：强烈建议用标准化实现（如Hugging Face Transformers）进行推理，避免使用vllm或lmdeploy等加速内核，因其可能导致性能显著下降和模型量化问题，目前这些加速推理实现严重影响视觉推理有效性，对纯文本性能影响较小。
推理参数设置：若想减少幻觉结果，建议用top_p = 0.8采样后设temperature为0.3，或用纯粹temperature采样设为0.2。总体相比类似模型，该模型需较低temperature，暂归因于大数据集过拟合。模型推理参考THUDM/glm-4-9b-chat-1m和THUDM/glm-4v-9b，仅保证用transformer推理时性能最佳，测试中使用lmdeploy导致多模态输入性能显著下降。