Bitnet_b1_58-large开源大语言模型 - 免费使用，处理海量数据输出优质内容

Bitnet B1 58 Large

由 1bitLLM 开发

BitNet b1.58是一种1位大语言模型，参数规模为30亿，使用RedPajama数据集训练了1000亿个token。

下载量 10.17k

发布时间 : 3/29/2024

模型简介

该模型是1位量化的大语言模型，旨在提供高效的推理性能，同时保持与传统浮点模型相当的准确率。

1位量化

模型权重和激活值仅使用1位表示，大幅降低内存占用和计算需求。

高效推理

相比传统浮点模型，1位量化显著提升了推理效率。

性能保持

在保持模型性能接近全精度模型的同时实现量化。

两阶段训练

采用论文建议的两阶段学习率和权重衰减策略进行训练。

文本生成

语言理解

零样本学习

自然语言处理

问答系统

可用于构建高效的问答系统

在ARC等问答基准测试中表现良好

文本生成

可用于各种文本生成任务

在困惑度指标上接近全精度模型

模型	困惑度（PPL）	ARCe	ARCc	HS	BQ	OQ	PQ	WGe	平均
FP16 700M（报告值）	12.33	54.7	23.0	37.0	60.0	20.2	68.9	54.8	45.5
BitNet b1.58 700M（报告值）	12.87	51.8	21.4	35.1	58.2	20.0	68.1	55.2	44.3
BitNet b1.58 700M（复现值）	12.78	51.4	21.8	35.0	59.6	20.6	67.5	55.4	44.5
FP16 1.3B（报告值）	11.25	56.9	23.5	38.5	59.1	21.6	70.0	53.9	46.2
BitNet b1.58 1.3B（报告值）	11.29	54.9	24.2	37.7	56.7	19.6	68.8	55.8	45.4
BitNet b1.58 1.3B（复现值）	11.19	55.8	23.7	37.6	59.0	20.2	69.2	56.0	45.9
FP16 3B（报告值）	10.04	62.1	25.6	43.3	61.8	24.6	72.1	58.2	49.7
BitNet b1.58 3B（报告值）	9.91	61.4	28.3	42.9	61.5	26.6	71.5	59.3	50.2
BitNet b1.58 3B（复现值）	9.88	60.9	28.0	42.3	58.3	26.0	71.4	60.3	49.6