MiniCPM-2B-sft-fp32开源端侧语言模型 - 轻量参数满足多样语言需求

首页

Minicpm 2B Sft Fp32

由 openbmb 开发

MiniCPM 是面壁智能与清华大学自然语言处理实验室共同开源的系列端侧语言大模型，主体语言模型 MiniCPM-2B 仅有 24亿（2.4B）的非词嵌入参数量。

大型语言模型

Transformers

支持多种语言开源协议:其他 #端侧大模型 #多模态支持 #低资源部署

下载量 218

发布时间 : 1/30/2024

模型简介

MiniCPM 是面向端侧的高效语言大模型，经过监督微调（SFT）和直接偏好优化（DPO）后，在多项评测中表现优异，支持中英文，可在手机端部署。

模型特点

端侧高效部署

经过 Int4 量化后可在手机上进行部署推理，流式输出速度略高于人类说话速度。

性能优异

在公开评测中表现与 Mistral-7B 相近，整体性能超越 Llama2-13B、MPT-30B、Falcon-40B 等模型。

多模态支持

基于 MiniCPM-2B 构建的端侧多模态大模型 MiniCPM-V，性能超越同规模模型。

低成本开发

仅需一张1080/2080显卡即可高效进行参数高效微调，二次开发成本较低。

模型能力

文本生成

对话系统

多模态理解

代码生成

数学推理

使用案例

智能助手

问答系统

回答用户提出的各种问题

在中文、数学、代码能力上表现优异

教育

学习辅助

帮助学生解答学习问题

在数学推理能力上表现良好

开发辅助

代码生成

辅助开发者生成代码片段

在代码能力评测中表现优异

🚀 MiniCPM

MiniCPM 是面壁与清华大学自然语言处理实验室共同开源的系列端侧语言大模型。主体语言模型 MiniCPM - 2B 仅有 24 亿（2.4B）的非词嵌入参数量，却在多项评测中表现出色，还能在手机上进行部署推理，二次开发成本较低。

🚀 快速开始

安装transformers>=4.36.0以及accelerate后，运行以下代码即可开始使用 MiniCPM：

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch
torch.manual_seed(0)

path = 'openbmb/MiniCPM-2B-sft-fp32'
tokenizer = AutoTokenizer.from_pretrained(path)
model = AutoModelForCausalLM.from_pretrained(path, torch_dtype=torch.float32, device_map='cuda', trust_remote_code=True)

responds, history = model.chat(tokenizer, "山东省最高的山是哪座山, 它比黄山高还是矮？差距多少？", temperature=0.8, top_p=0.8)
print(responds)

期望输出：

山东省最高的山是泰山，海拔1545米。

相对于黄山（海拔1864米），泰山海拔较低，相差约319米。

⚠️ 重要提示

需要在from_pretrained中明确指明模型的数据类型，否则会引起较大计算误差。

✨ 主要特性

性能卓越：经过 SFT 后，MiniCPM 在公开综合性评测集上与 Mistral - 7B 相近（中文、数学、代码能力更优），整体性能超越 Llama2 - 13B、MPT - 30B、Falcon - 40B 等模型；经过 DPO 后，在当前最接近用户体感的评测集 MTBench 上，MiniCPM - 2B 超越了 Llama2 - 70B - Chat、Vicuna - 33B、Mistral - 7B - Instruct - v0.1、Zephyr - 7B - alpha 等众多代表性开源大模型。
多模态能力出色：以 MiniCPM - 2B 为基础构建的端侧多模态大模型 MiniCPM - V，整体性能在同规模模型中实现最佳，超越基于 Phi - 2 构建的现有多模态大模型，在部分评测集上达到与 9.6B Qwen - VL - Chat 相当甚至更好的性能。
可移动端部署：经过 Int4 量化后，MiniCPM 可在手机上进行部署推理，流式输出速度略高于人类说话速度。MiniCPM - V 也首次跑通了多模态大模型在手机上的部署。
开发成本低：一张 1080/2080 可高效参数微调，一张 3090/4090 可全参数微调，一台机器可持续训练 MiniCPM。

📚 详细文档

评测结果

详细的评测结果位于github仓库

⚠️ 重要提示

我们发现使用 Huggingface 生成质量略差于 vLLM，因此推荐使用 vLLM 进行测试。我们正在排查原因。

局限性

受限于模型规模，模型可能出现幻觉性问题。其中由于 DPO 模型生成的回复内容更长，更容易出现幻觉。我们也将持续进行 MiniCPM 模型的迭代改进。
为了保证在学术研究用途上模型的通用性，我们未对模型进行任何身份认同训练。同时由于我们用 ShareGPT 开源语料作为部分训练数据，模型可能会输出类似 GPT 系列模型的身份认同信息。
受限于模型规模，模型的输出受到提示词（prompt）的影响较大，可能多次尝试产生不一致的结果。
受限于模型容量，模型的知识记忆较不准确，后续我们将结合 RAG 方法来增强模型的知识记忆能力。

📦 模型下载

HuggingFace	ModelScope	WiseModel
sft - bf16	sft - bf16	sft - bf16
sft - fp32	sft - fp32	sft - fp32
dpo - bf16	dpo - bf16	dpo - bf16
dpo - fp16	dpo - fp16	dpo - fp16
dpo - fp32	dpo - fp32	dpo - fp32

📄 许可证

模型协议

本仓库中代码依照 Apache - 2.0 协议开源。
MiniCPM 模型权重的使用则需要遵循 “通用模型许可协议 - 来源说明 - 宣传限制 - 商业授权”。
MiniCPM 模型权重对学术研究完全开放。
如需将模型用于商业用途，请联系 cpm@modelbest.cn 来获取书面授权，在登记后亦允许免费商业使用。

声明

作为一个语言模型，MiniCPM 通过学习大量的文本来生成内容，但它无法理解、表达个人观点或价值判断，它所输出的任何内容都不代表模型开发者的观点和立场。
因此用户在使用 MiniCPM 生成的内容时，应自行负责对其进行评估和验证。
如果由于使用 MinCPM 开源模型而导致的任何问题，包括但不限于数据安全问题、公共舆论风险，或模型被误导、滥用、传播或不当利用所带来的任何风险和问题，我们将不承担任何责任。

📖 工作引用

如果觉得 MiniCPM 有助于您的工作，请考虑引用下列技术报告

@inproceedings{minicpm2024,
 title={MiniCPM：Unveiling the Potential of End-side Large Language Models},
 booktitle={OpenBMB Blog},
 year={2024}
}

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

uer

2,694

智启未来，您的人工智能解决方案智库

简体中文