B

Bitnet B1 58 Large

由 1bitLLM 开发
BitNet b1.58是一种1位大语言模型,参数规模为30亿,使用RedPajama数据集训练了1000亿个token。
下载量 10.17k
发布时间 : 3/29/2024
模型介绍
内容详情
替代品

模型简介

该模型是1位量化的大语言模型,旨在提供高效的推理性能,同时保持与传统浮点模型相当的准确率。

模型特点

1位量化
模型权重和激活值仅使用1位表示,大幅降低内存占用和计算需求。
高效推理
相比传统浮点模型,1位量化显著提升了推理效率。
性能保持
在保持模型性能接近全精度模型的同时实现量化。
两阶段训练
采用论文建议的两阶段学习率和权重衰减策略进行训练。

模型能力

文本生成
语言理解
零样本学习

使用案例

自然语言处理
问答系统
可用于构建高效的问答系统
在ARC等问答基准测试中表现良好
文本生成
可用于各种文本生成任务
在困惑度指标上接近全精度模型