Bitnet B1.58 2B 4T Bf16

由 microsoft 开发

由微软研究院开发的开源原生1位大语言模型，参数规模达20亿，在4万亿token的语料库上训练而成，显著提升计算效率。

大型语言模型

Transformers

英语

开源协议:MIT #1.58位量化 #高效推理 #低能耗

下载量 2,968

发布时间 : 4/15/2025

模型介绍

内容详情

替代品

模型简介

首个开源的、参数规模达20亿的原生1位大语言模型，证明了原生1位大语言模型在保持与同类全精度模型相当性能的同时，能显著提升计算效率（内存、能耗、延迟）。

模型特点

原生1.58位量化

权重在前向传播时通过绝对值均值量化到三元值{-1, 0, +1}，激活通过绝对值最大值量化到8位整数。

高效计算

显著提升计算效率（内存、能耗、延迟），内存占用仅为0.4GB，延迟29ms（CPU解码），能耗估算0.028J。

大规模训练

在4万亿token的语料库上训练而成，证明了原生1位大语言模型的可行性。

优化架构

采用BitLinear层、旋转位置编码（RoPE）、平方ReLU（ReLU²）激活和subln归一化，线性层和归一化层无偏置项。

模型能力

文本生成

聊天

指令遵循

数学推理

常识问答

使用案例

对话系统

AI助手

作为有帮助的AI助手，进行自然语言对话。

在人类评估中得分为38.40

教育

数学问题解答

解答数学问题，如GSM8K数据集中的问题。

GSM8K得分为58.38

知识问答

常识问答

常识QA得分为71.58

专业知识问答

MMLU得分为53.17

许可证: mit
许可证链接: https://huggingface.co/microsoft/bitnet-b1.58-2B-4T/blob/main/LICENSE
语言:

英文
任务标签: 文本生成
标签:
聊天
bitnet
文本生成
大语言模型
库名称: transformers

BitNet b1.58 2B4T - 原生1位大语言模型的规模化实践

本仓库包含由微软研究院开发的BitNet b1.58 2B4T模型权重，这是首个开源的、参数规模达20亿的原生1位大语言模型（LLM）。

该模型在4万亿token的语料库上训练而成，证明了原生1位大语言模型在保持与同类全精度模型相当性能的同时，能显著提升计算效率（内存、能耗、延迟）。

➡️ 技术报告: BitNet b1.58 2B4T技术报告
➡️ 官方推理代码: microsoft/BitNet (bitnet.cpp)

模型变体

Hugging Face上提供了多个版本的模型权重：

microsoft/bitnet-b1.58-2B-4T: 包含为高效推理优化的打包1.58位权重。推荐部署使用。
microsoft/bitnet-b1.58-2B-4T-bf16 (本仓库): 包含BF16格式的主权重。仅用于训练或微调。
microsoft/bitnet-b1.58-2B-4T-gguf: 包含GGUF格式的模型权重，兼容bitnet.cpp库的CPU推理。

模型详情

架构: 基于Transformer，采用BitLinear层（BitNet框架）
- 使用旋转位置编码（RoPE）
- 在FFN层使用平方ReLU（ReLU²）激活
- 采用subln归一化
- 线性层和归一化层无偏置项
量化: 原生1.58位权重和8位激活（W1.58A8）
- 权重在前向传播时通过绝对值均值量化到三元值{-1, 0, +1}
- 激活通过绝对值最大值量化到8位整数（按token）
- 关键点：该模型是直接采用此量化方案从头训练，而非训练后量化
参数: ~20亿
训练token数: 4万亿
上下文长度: 最大4096 token
- 建议: 对于需要超长上下文的任务（超过预训练长度或专业长链推理任务），建议在最终微调阶段前进行中间长序列适应训练
训练阶段:
1. 预训练: 使用两阶段学习率和权重衰减计划，在公开文本/代码和合成数学数据上进行大规模训练
2. 监督微调(SFT): 在指令遵循和对话数据集上使用聚合损失和特定超参调优进行微调
3. 直接偏好优化(DPO): 使用偏好对进行人类偏好对齐
分词器: LLaMA 3分词器（词表大小: 128,256）

使用方法（使用`transformers`）

关于效率的重要说明

请注意：即使使用定制分支，通过标准transformers库运行本模型也不会获得速度、延迟或能耗方面的性能提升。

当前transformers的执行路径缺乏针对BitNet架构优化的专用计算内核。通过transformers运行模型时，其推理速度和能耗可能与标准全精度模型相当甚至更差（CPU/GPU均适用）。

虽然量化权重可能降低内存占用，但技术报告中展示的主要计算效率优势必须通过专用C++实现bitnet.cpp才能实现。

环境要求

pip install git+https://github.com/huggingface/transformers.git@096f25ae1f501a084d8ff2dcaf25fbc2bd60eba4

示例代码

import torch  
from transformers import AutoModelForCausalLM, AutoTokenizer  

model_id = "microsoft/bitnet-b1.58-2B-4T"  

# 加载分词器和模型  
tokenizer = AutoTokenizer.from_pretrained(model_id)  
model = AutoModelForCausalLM.from_pretrained(  
    model_id,  
    torch_dtype=torch.bfloat16  
)  

# 应用对话模板  
messages = [  
    {"role": "system", "content": "你是一个有帮助的AI助手。"},  
    {"role": "user", "content": "你好吗？"},  
]  
prompt = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)  
chat_input = tokenizer(prompt, return_tensors="pt").to(model.device)  

# 生成回复  
chat_outputs = model.generate(**chat_input, max_new_tokens=50)  
response = tokenizer.decode(chat_outputs[0][chat_input['input_ids'].shape[-1]:], skip_special_tokens=True) # 仅解码回复部分  
print("\n助手回复:", response)

使用方法（使用`bitnet.cpp`）

请参考bitnet.cpp GitHub仓库获取详细编译步骤、使用示例和命令行选项。

评估结果

BitNet b1.58 2B4T与同类全精度开源LLM的对比评估结果（所有模型均为指令调优版本）:

基准测试	LLaMA 3.2 1B	Gemma-3 1B	Qwen2.5 1.5B	SmolLM2 1.7B	MiniCPM 2B	BitNet b1.58 2B
内存占用(非嵌入)	2GB	1.4GB	2.6GB	3.2GB	4.8GB	0.4GB
延迟(CPU解码)	48ms	41ms	65ms	67ms	124ms	29ms
能耗(估算)	0.258J	0.186J	0.347J	0.425J	0.649J	0.028J
预训练token数	9T*	2T**	18T	11T	1.1T	4T
ARC挑战赛	37.80	38.40	46.67	43.52	44.80	49.91
ARC简易题	63.17	63.13	76.01	62.92	72.14	74.79
OpenbookQA	34.80	38.80	40.80	46.00	40.20	41.60
BoolQ	64.65	74.22	78.04	75.78	80.67	80.18
HellaSwag	60.80	57.69	68.28	71.71	70.81	68.44
PIQA	74.21	71.93	76.12	76.12	76.66	77.09
WinoGrande	59.51	58.48	62.83	68.98	61.80	71.90
常识QA	58.48	42.10	76.41	63.55	71.74	71.58
真实QA	43.80	38.66	46.67	39.90	41.41	45.31
知识问答	37.60	23.49	38.37	45.97	34.13	33.57
MMLU	45.58	39.91	60.25	49.24	51.82	53.17
人类评估+	31.10	37.20	50.60	28.00	43.90	38.40
GSM8K	38.21	31.16	56.79	45.11	4.40	58.38
数学500题	23.00	42.00	53.00	17.60	14.80	43.40
IFEval	62.71	66.67	50.12	57.91	36.81	53.48
MT基准测试	5.43	6.40	6.12	5.50	6.57	5.85
平均分	44.90	43.74	55.23	48.70	42.05	54.19