B

Bitnet B1.58 2B 4T Bf16

由 microsoft 开发
由微软研究院开发的开源原生1位大语言模型,参数规模达20亿,在4万亿token的语料库上训练而成,显著提升计算效率。
下载量 2,968
发布时间 : 4/15/2025
模型介绍
内容详情
替代品

模型简介

首个开源的、参数规模达20亿的原生1位大语言模型,证明了原生1位大语言模型在保持与同类全精度模型相当性能的同时,能显著提升计算效率(内存、能耗、延迟)。

模型特点

原生1.58位量化
权重在前向传播时通过绝对值均值量化到三元值{-1, 0, +1},激活通过绝对值最大值量化到8位整数。
高效计算
显著提升计算效率(内存、能耗、延迟),内存占用仅为0.4GB,延迟29ms(CPU解码),能耗估算0.028J。
大规模训练
在4万亿token的语料库上训练而成,证明了原生1位大语言模型的可行性。
优化架构
采用BitLinear层、旋转位置编码(RoPE)、平方ReLU(ReLU²)激活和subln归一化,线性层和归一化层无偏置项。

模型能力

文本生成
聊天
指令遵循
数学推理
常识问答

使用案例

对话系统
AI助手
作为有帮助的AI助手,进行自然语言对话。
在人类评估中得分为38.40
教育
数学问题解答
解答数学问题,如GSM8K数据集中的问题。
GSM8K得分为58.38
知识问答
常识问答
常识QA得分为71.58
专业知识问答
MMLU得分为53.17