B

Bitnet B1.58 2B 4T

由 microsoft 开发
微软研究院开发的首个开源20亿参数规模原生1比特大语言模型,在4万亿token语料上训练完成,证明了原生1比特大语言模型在保持与同规模全精度开源模型相当性能的同时,能显著提升计算效率。
下载量 35.87k
发布时间 : 4/15/2025
模型介绍
内容详情
替代品

模型简介

BitNet b1.58 2B4T是一个原生1.58比特的大语言模型,采用三元值{-1, 0, +1}权重和8比特激活,专为高效计算设计。该模型在保持与同规模全精度模型相当性能的同时,显著降低了内存占用和能耗。

模型特点

原生1.58比特量化
模型直接采用1.58比特权重和8比特激活方案从头训练,而非训练后量化
高效计算
相比同规模全精度模型,显著降低内存占用、能耗和延迟
大规模训练
在4万亿token的多样化语料上进行训练,包括文本、代码和数学数据
优化架构
采用旋转位置编码、平方ReLU激活和subln归一化等优化技术

模型能力

文本生成
对话系统
指令跟随
代码生成
数学推理

使用案例

对话系统
AI助手
构建高效能、低资源消耗的对话助手
在人类评估中获得38.4分
数学推理
数学问题求解
解决GSM8K数学问题
达到58.38%的准确率
常识推理
常识问答
回答常识性问题
在常识QA上达到71.58分